XAI Grok führt benutzerdefinierte Stimmen ein: 2 Minuten zum Klonen, zweistufige Identitätsprüfung

ChainNewsAbmedia

xAI führte am 2. Mai auf seinem offiziellen Blog die Funktion Grok Custom Voices ein. Nutzer müssen lediglich rund 1 Minute natürliche Sprache im xAI-Frontend aufnehmen; das System ist in 2 Minuten verarbeitet und liefert ein maßgeschneidertes Sound-Modell, das für TTS und die Voice Agent API nutzbar ist. Zeitgleich wurde auch das Grok-4.3-Modell veröffentlicht sowie die Voice-Library-Ansicht, die sämtliche Sound-Ressourcen bündelt. Custom Voices ist außerdem mit einem zweistufigen Identitäts-Check-Mechanismus ausgestattet, um zu verhindern, dass fremde Stimmen geklont werden.

Funktion: 1 Minute Aufnahme, 2 Minuten Generierung, Integration von TTS und Voice Agent API

Nutzer nehmen im xAI-Frontend rund 1 Minute natürliche Sprache auf. Die Backend-Prozesse werden der Reihe nach abgeschlossen: (1) Identitätsprüfung, (2) Sprachverarbeitung, (3) Modellausgabe. Innerhalb von insgesamt 2 Minuten erhalten Nutzer ein einsatzfähiges Sound-Modell. Custom Voices übernimmt alle TTS-Fähigkeiten, einschließlich speech tags (Sprachkennzeichnungen), mehrsprachiger Ausgabe sowie REST- und WebSocket-Streaming; es kann direkt mit den xAI-TTS-Endpunkten oder der Voice Agent API für Echtzeit-Dialog-Agents kombiniert werden.

Die zeitgleich eingeführte Voice Library ist eine einheitliche Verwaltungsoberfläche für Sound-Ressourcen im xAI-Frontend. Sie ermöglicht das Durchsuchen, Vorabansichten und Verwalten sämtlicher selbst erstellter sowie vorab bereitgestellter Stimmen, wodurch die Nutzung nicht über mehrere unterschiedliche Interfaces verteilt wird. Die vorab bereitgestellte Voice-Library bietet über 80 Stimmen und unterstützt 28 Sprachen.

Zweistufige Identitätsprüfung: verhindert das Klonen fremder Stimmen

Custom Voices setzt vor der Sprachgenerierung zwei Identitätsprüfungen: In der ersten Stufe liest der Nutzer einen Abschnitt eines Verifizierungssatzes vor; das System transkribiert diese Passage sofort. In der zweiten Stufe berechnet das System aus dem Verifizierungssatz und der vollständigen Aufnahme jeweils speaker embedding (Merkmalsvektoren des Sprechers) und vergleicht, ob beide zu derselben Person gehören. Nur wenn beide Stufen bestanden sind, wird der Prozess zur Modellausgabe der Stimme gestartet.

xAI stellt klar: Nutzer können keine Stimme mit bestehenden Audiodateien klonen und auch keine fremden Stimmen klonen. Diese Gestaltung schließt die Nutzungsszenarien aus, in denen man „Aufnahmen öffentlicher Auftritte anderer direkt kopiert“, und beschränkt den Klon-Einsatzbereich auf genau eine Eingangsquelle: die sofortige eigene Aufnahme durch den Nutzer. Für Beobachter, die sich mit dem Missbrauch von KI-Spracherzeugung befassen (z. B. Telefonbetrug, nicht autorisierte Synchronisation), ist dieses Mechanismus-Design die konkrete Antwort von xAI auf das Thema Deepfakes.

Weitere Beobachtung: Mit Grok 4.3 zeitgleich eingeführt, Voice Library wird im Takt erweitert

Custom Voices und das Grok-4.3-Modell erscheinen am selben Tag; xAI bindet „ein Modell-Upgrade + die Vervollständigung der Sprach-Tools“ in dieselbe Veröffentlichungswelle ein. Der nächste Beobachtungspunkt ist der Takt, mit dem die vorab bereitgestellte Voice-Library von 80 Stimmen nach oben erweitert wird, sowie ob die Abdeckung von 28 Sprachen in Zukunft weiter auch um die traditionellen chinesischen Schriftsysteme und andere kleinere Sprachgruppen ergänzt werden kann. Ein weiterer Beobachtungspunkt sind veröffentlichte konkrete Anwendungsfälle der Voice Agent API, insbesondere Integrationsbeispiele für Szenarien wie Kundenservice-Automatisierung, Podcast-Aufzeichnungen und mehrsprachigen Kundendienst.

Der Artikel „xAI Grok bringt Custom Voices: 2 Minuten Klonen, zweistufige Identitätsprüfung“ erschien zuerst bei 鏈新聞 ABMedia.

Disclaimer: The information on this page may come from third parties and does not represent the views or opinions of Gate. The content displayed on this page is for reference only and does not constitute any financial, investment, or legal advice. Gate does not guarantee the accuracy or completeness of the information and shall not be liable for any losses arising from the use of this information. Virtual asset investments carry high risks and are subject to significant price volatility. You may lose all of your invested principal. Please fully understand the relevant risks and make prudent decisions based on your own financial situation and risk tolerance. For details, please refer to Disclaimer.

Verwandte Artikel

Particle Network veröffentlicht Roadmap für universelle Konten, startet Universal Deposit SDK und AI-Agent-Konten

Laut ChainCatcher hat Particle Network heute die Roadmap für die nächste Phase für Universal Accounts veröffentlicht und zwei neue Produkte für die kommenden Monate angekündigt: Universal Deposit SDK, mit dem Entwickler Multi-Chain-Einzahlungen mit etwa 10 Zeilen Code hinzufügen können, und Universal Agent Accounts,

GateNews2Std her

Roblox bringt KI-Software auf den Markt, um Unity und Epic Games herauszufordern

Laut Bloomberg bringt Roblox eine neue KI-Software auf den Markt, um mit Unity Technologies und Epic Games zu konkurrieren, deren Engines die Entwicklung von Spielen mit hohem Budget dominieren. CEO Dave Baszucki sagte, das Tool solle es Kreativen ermöglichen, einfacher Multiplayer-Spiele mit fotorealistischen Grafiken zu erstellen, angetrieben von ar

GateNews7Std her

Die US Navy unterzeichnet einen Vertrag über nahezu 100 Millionen US-Dollar mit Domino Data Lab für die Minenerkennung in der Straße von Hormus

Laut Xinhua News Agency hat der Information Warfare Systems Command der US Navy kürzlich einen Vertrag mit dem in San Francisco ansässigen KI-Unternehmen Domino Data Lab unterzeichnet, um Machine-Learning-Softwarelösungen zu beschaffen und einzusetzen. Der Vertrag hat einen Wert von nahezu 100 Millionen US-Dollar, falls er vollständig umgesetzt wird, und zielt darauf ab,

GateNews9Std her

OpenAI Codex Desktop-Version erhält Haustier-Funktion: 3 Zustandsanzeigen, schlüpft je nach verwendeter Sprache

OpenAI Codex Desktop-Version hat kürzlich die Funktion „Haustiere“ (Pets) veröffentlicht. Sie ermöglicht Entwicklern, beim Programmieren über schwebende animierte Figuren den Codex-Aufgabenstatus in Echtzeit zu verfolgen. Laut OpenAI-Offiziellen Dokumenten wechselt das Haustier-Overlay je nach aktuellem Codex-Status zu 3

ChainNewsAbmedia12Std her

MoonPay bringt am Freitag die MoonAgents-Karte auf den Markt: eine virtuelle Mastercard für KI-Agenten

Laut The Block hat MoonPay am Freitag die MoonAgents Card auf den Markt gebracht, eine virtuelle Mastercard-Debitkarte. Die Karte ist sowohl für KI-Agenten als auch für Nutzer ausgelegt, wandelt Stablecoins beim Zahlungsvorgang in Fiat um und ermöglicht das Bezahlen bei jedem Online-Händler weltweit, der Mastercard akzeptiert. Die Karte i

GateNews23Std her

Berkeley GEPA-Analyse: KI kann neue Aufgaben lernen, ohne Gewichte zu aktualisieren, 35-mal geringere Trainingskosten als RL

GEPA ist eine neue Methode für das KI-Training, die von einem UC-Berkeley-Team vorgeschlagen wurde: keine Aktualisierung der Gewichte, keine GPU erforderlich. Stattdessen wird die Reflexion eingesetzt, sodass ein LLM die vollständigen Aufgabennotizen liest und die Prompts neu formuliert, statt nur ein Feedback über Punktzahlen zu geben. In sechs Aufgaben lag der durchschnittliche Sieg gegenüber GRPO bei 6%, der höchste Wert bei 20%; die Trainings-rollouts wurden um das 35-Fache reduziert. In Kombination mit DSPy verbessert der Full Program Adapter bei mathematischen und multimodalen Workflows deutlich: 93% Genauigkeit. Der Code ist quelloffen; die Autoren umfassen u. a. Matei Zaharia.

ChainNewsAbmedia05-02 05:48
Kommentieren
0/400
Keine Kommentare