與 μ-Bench 相關的一個特別之處是，它提出了一種比傳統方法更細緻的評估方式。除了傳統的單詞錯誤率 (WER)，他們引入了話語錯誤率 (UER)，用來區分那些真正改變訊息意義的錯誤與不影響理解的錯誤。這是一個在評估實際品質方面的重要進步。

這個資料集包含 250 個真實的客服錄音，以及 4,270 個標註的音頻片段，涵蓋五種語言：英語、西班牙語、土耳其語、越南語和普通話。這已經比之前的資料更具代表性。

在性能方面，Google Chirp-3 明顯在準確率上佔優，而 Deepgram Nova-3 則以速度見長，但在多語言準確率方面仍有差距。看到不同供應商根據不同標準的定位，令人感興趣。

完整的基準測試和排名現已在 Hugging Face 上提供，這為供應商的參與打開了大門。這種開源的倡議真正推動了行業的進步，尤其是在多語言實際應用中的語音識別改進方面。

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

打賞
按讚
留言
轉發
分享

留言

請輸入留言內容

暫無留言

熱門話題
查看更多
#
Gate13週年現場直擊
121.38萬熱度
#
WCTC交易賽瓜分800萬USDT
79.45萬熱度
#
比特幣反彈
21.05萬熱度
#
以太坊Meme季強勢回歸
200.36萬熱度
#
美伊第二輪談判進展
75.09萬熱度

我剛剛在語音識別領域發現了一些有趣的事情。Sierra 剛剛將多語言的 ASR 基準測試 μ-Bench 開源，這個基準針對一個真正的問題：現有的大多數基準都集中在英語，這嚴重限制了在實際客戶環境中系統的評估。

熱門話題

Gate13週年現場直擊

WCTC交易賽瓜分800萬USDT

比特幣反彈

以太坊Meme季強勢回歸

美伊第二輪談判進展

置頂