Kurzfassung
Meta AI hat das Omnilingual-ASR-System eingeführt, das Spracherkennung für über 1.600 Sprachen bietet, und Open-Source-Modelle sowie einen Korpus für 350 unterversorgte Sprachen veröffentlicht.

Die Forschungsabteilung des Technologiekonzerns Meta, spezialisiert auf KI und erweiterte Realität, Meta AI, kündigte die Veröffentlichung des Meta Omnilingual Automatic Speech Recognition (ASR)-Systems an.
Dieses Modellpaket ermöglicht automatische Spracherkennung für über 1.600 Sprachen und erzielt eine hochwertige Leistung in bisher unerreichtem Umfang. Zusätzlich veröffentlicht Meta AI Omnilingual wav2vec 2.0, ein selbstüberwachtes, massiv mehrsprachiges Sprachrepräsentationsmodell mit 7 Milliarden Parametern, das für eine Vielzahl von nachgelagerten Sprachaufgaben entwickelt wurde.
Neben diesen Tools veröffentlicht die Organisation auch den Omnilingual ASR-Korpus, eine kuratierte Sammlung transkribierter Sprache aus 350 unterversorgten Sprachen, die in Zusammenarbeit mit globalen Partnern entwickelt wurde.
Die automatische Spracherkennung hat sich in den letzten Jahren verbessert und erreicht bei vielen weit verbreiteten Sprachen nahezu perfekte Genauigkeit. Die Erweiterung auf weniger ressourcenreiche Sprachen bleibt jedoch eine Herausforderung, da die bestehenden KI-Architekturen hohe Daten- und Rechenanforderungen haben. Das Omnilingual-ASR-System adressiert diese Begrenzung, indem es den wav2vec 2.0-Sprachencoder auf 7 Milliarden Parameter skaliert und reiche mehrsprachige Repräsentationen aus rohem, untranskribiertem Sprachmaterial erstellt. Zwei Decoder-Varianten wandeln diese Repräsentationen in Zeichen-Tokens um: eine mit Verbindungistischer Zeitklassifikation (CTC) und eine andere mit einem transformerbasierten Ansatz, ähnlich den großen Sprachmodellen.
Dieser LLM-inspirierte ASR-Ansatz erreicht Spitzenleistungen bei mehr als 1.600 Sprachen, mit Zeichenfehlerraten unter 10 bei 78 % davon, und bietet eine flexiblere Methode, um neue Sprachen hinzuzufügen.
Im Gegensatz zu traditionellen Systemen, die Experten-Feinabstimmung erfordern, kann Omnilingual ASR eine zuvor nicht unterstützte Sprache nur mit wenigen gepaarten Audio-Text-Beispielen integrieren, was Transkriptionen ohne umfangreiche Daten, spezialisiertes Fachwissen oder High-End-Rechenleistung ermöglicht. Obwohl Zero-Shot-Ergebnisse noch nicht mit vollständig trainierten Systemen mithalten können, bietet diese Methode eine skalierbare Möglichkeit, unterversorgte Sprachen in das digitale Ökosystem zu integrieren.
Die Forschungsabteilung hat eine umfassende Suite von Modellen und einen Datensatz veröffentlicht, die die Sprachtechnologie für jede Sprache verbessern sollen. Aufbauend auf früheren Forschungen von FAIR umfasst Omnilingual ASR zwei Decoder-Varianten, von leichten 300M-Modellen für energiearme Geräte bis hin zu 7B-Modellen mit hoher Genauigkeit für vielfältige Anwendungen. Das allgemeine wav2vec 2.0-Sprachgrundlagenmodell ist ebenfalls in mehreren Größen erhältlich, um eine breite Palette von sprachbezogenen Aufgaben über ASR hinaus zu ermöglichen. Alle Modelle stehen unter einer Apache 2.0-Lizenz, und der Datensatz ist unter CC-BY verfügbar, sodass Forscher, Entwickler und Sprachaktivisten Sprachlösungen mit FAIRs Open-Source-Framework fairseq2 im PyTorch-Ökosystem anpassen und erweitern können.
Omnilingual ASR wurde auf einem der größten und sprachlich vielfältigsten ASR-Korpora trainiert, das je zusammengestellt wurde. Es kombiniert öffentlich verfügbare Datensätze mit community-basierten Aufnahmen. Um Sprachen mit begrenzter digitaler Präsenz zu unterstützen, arbeitete Meta AI mit lokalen Organisationen zusammen, um Muttersprachler in abgelegenen oder wenig dokumentierten Regionen zu rekrutieren und zu bezahlen. So entstand der Omnilingual ASR-Korpus, der bisher größte ultra-niedrigressourcen-Spontansprachkorpus. Weitere Kooperationen im Rahmen des Language Technology Partner Programms brachten Linguisten, Forscher und Sprachgemeinschaften weltweit zusammen, darunter Partnerschaften mit der Mozilla Foundation’s Common Voice und Lanfrica/NaijaVoices. Diese Bemühungen lieferten tiefgehende linguistische Einblicke und kulturellen Kontext, um sicherzustellen, dass die Technologie den lokalen Bedürfnissen entspricht und gleichzeitig vielfältige Sprachgemeinschaften weltweit stärkt.