xAI führte am 2. Mai auf seinem offiziellen Blog die Funktion Grok Custom Voices ein. Nutzer müssen lediglich rund 1 Minute natürliche Sprache im xAI-Frontend aufnehmen; das System ist in 2 Minuten verarbeitet und liefert ein maßgeschneidertes Sound-Modell, das für TTS und die Voice Agent API nutzbar ist. Zeitgleich wurde auch das Grok-4.3-Modell veröffentlicht sowie die Voice-Library-Ansicht, die sämtliche Sound-Ressourcen bündelt. Custom Voices ist außerdem mit einem zweistufigen Identitäts-Check-Mechanismus ausgestattet, um zu verhindern, dass fremde Stimmen geklont werden.
Funktion: 1 Minute Aufnahme, 2 Minuten Generierung, Integration von TTS und Voice Agent API
Nutzer nehmen im xAI-Frontend rund 1 Minute natürliche Sprache auf. Die Backend-Prozesse werden der Reihe nach abgeschlossen: (1) Identitätsprüfung, (2) Sprachverarbeitung, (3) Modellausgabe. Innerhalb von insgesamt 2 Minuten erhalten Nutzer ein einsatzfähiges Sound-Modell. Custom Voices übernimmt alle TTS-Fähigkeiten, einschließlich speech tags (Sprachkennzeichnungen), mehrsprachiger Ausgabe sowie REST- und WebSocket-Streaming; es kann direkt mit den xAI-TTS-Endpunkten oder der Voice Agent API für Echtzeit-Dialog-Agents kombiniert werden.
Die zeitgleich eingeführte Voice Library ist eine einheitliche Verwaltungsoberfläche für Sound-Ressourcen im xAI-Frontend. Sie ermöglicht das Durchsuchen, Vorabansichten und Verwalten sämtlicher selbst erstellter sowie vorab bereitgestellter Stimmen, wodurch die Nutzung nicht über mehrere unterschiedliche Interfaces verteilt wird. Die vorab bereitgestellte Voice-Library bietet über 80 Stimmen und unterstützt 28 Sprachen.
Zweistufige Identitätsprüfung: verhindert das Klonen fremder Stimmen
Custom Voices setzt vor der Sprachgenerierung zwei Identitätsprüfungen: In der ersten Stufe liest der Nutzer einen Abschnitt eines Verifizierungssatzes vor; das System transkribiert diese Passage sofort. In der zweiten Stufe berechnet das System aus dem Verifizierungssatz und der vollständigen Aufnahme jeweils speaker embedding (Merkmalsvektoren des Sprechers) und vergleicht, ob beide zu derselben Person gehören. Nur wenn beide Stufen bestanden sind, wird der Prozess zur Modellausgabe der Stimme gestartet.
xAI stellt klar: Nutzer können keine Stimme mit bestehenden Audiodateien klonen und auch keine fremden Stimmen klonen. Diese Gestaltung schließt die Nutzungsszenarien aus, in denen man „Aufnahmen öffentlicher Auftritte anderer direkt kopiert“, und beschränkt den Klon-Einsatzbereich auf genau eine Eingangsquelle: die sofortige eigene Aufnahme durch den Nutzer. Für Beobachter, die sich mit dem Missbrauch von KI-Spracherzeugung befassen (z. B. Telefonbetrug, nicht autorisierte Synchronisation), ist dieses Mechanismus-Design die konkrete Antwort von xAI auf das Thema Deepfakes.
Weitere Beobachtung: Mit Grok 4.3 zeitgleich eingeführt, Voice Library wird im Takt erweitert
Custom Voices und das Grok-4.3-Modell erscheinen am selben Tag; xAI bindet „ein Modell-Upgrade + die Vervollständigung der Sprach-Tools“ in dieselbe Veröffentlichungswelle ein. Der nächste Beobachtungspunkt ist der Takt, mit dem die vorab bereitgestellte Voice-Library von 80 Stimmen nach oben erweitert wird, sowie ob die Abdeckung von 28 Sprachen in Zukunft weiter auch um die traditionellen chinesischen Schriftsysteme und andere kleinere Sprachgruppen ergänzt werden kann. Ein weiterer Beobachtungspunkt sind veröffentlichte konkrete Anwendungsfälle der Voice Agent API, insbesondere Integrationsbeispiele für Szenarien wie Kundenservice-Automatisierung, Podcast-Aufzeichnungen und mehrsprachigen Kundendienst.
Der Artikel „xAI Grok bringt Custom Voices: 2 Minuten Klonen, zweistufige Identitätsprüfung“ erschien zuerst bei 鏈新聞 ABMedia.
Verwandte Artikel
Particle Network veröffentlicht Roadmap für universelle Konten, startet Universal Deposit SDK und AI-Agent-Konten
Roblox bringt KI-Software auf den Markt, um Unity und Epic Games herauszufordern
Die US Navy unterzeichnet einen Vertrag über nahezu 100 Millionen US-Dollar mit Domino Data Lab für die Minenerkennung in der Straße von Hormus
OpenAI Codex Desktop-Version erhält Haustier-Funktion: 3 Zustandsanzeigen, schlüpft je nach verwendeter Sprache
MoonPay bringt am Freitag die MoonAgents-Karte auf den Markt: eine virtuelle Mastercard für KI-Agenten
Berkeley GEPA-Analyse: KI kann neue Aufgaben lernen, ohne Gewichte zu aktualisieren, 35-mal geringere Trainingskosten als RL