我剛剛在語音識別領域發現了一些有趣的事情。Sierra 剛剛將多語言的 ASR 基準測試 μ-Bench 開源,這個基準針對一個真正的問題:現有的大多數基準都集中在英語,這嚴重限制了在實際客戶環境中系統的評估。



與 μ-Bench 相關的一個特別之處是,它提出了一種比傳統方法更細緻的評估方式。除了傳統的單詞錯誤率 (WER),他們引入了話語錯誤率 (UER),用來區分那些真正改變訊息意義的錯誤與不影響理解的錯誤。這是一個在評估實際品質方面的重要進步。

這個資料集包含 250 個真實的客服錄音,以及 4,270 個標註的音頻片段,涵蓋五種語言:英語、西班牙語、土耳其語、越南語和普通話。這已經比之前的資料更具代表性。

在性能方面,Google Chirp-3 明顯在準確率上佔優,而 Deepgram Nova-3 則以速度見長,但在多語言準確率方面仍有差距。看到不同供應商根據不同標準的定位,令人感興趣。

完整的基準測試和排名現已在 Hugging Face 上提供,這為供應商的參與打開了大門。這種開源的倡議真正推動了行業的進步,尤其是在多語言實際應用中的語音識別改進方面。
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 留言
  • 轉發
  • 分享
留言
請輸入留言內容
請輸入留言內容
暫無留言