根據 Beating,Xiaomi 的 AI Lab Kaldi 團隊已將 OmniVoice 進行開源。該模型是一種零樣本語音克隆的 TTS 模型,支援 646 種語言。該模型僅需幾秒的參考音訊即可克隆語音特徵,並能跨語言運作——同一個聲音可以合成中文、日文、韓文以及其他語言的語音。所有程式碼、權重與訓練資料皆在 Apache-2.0 授權下開源。
OmniVoice 採用簡化架構,使用單一雙向 Transformer,直接將文字對應到離散的聲學代幣,並在 PyTorch 中實現比即時快 40 倍的推論速度。OmniVoice 使用來自 50 個開源資料集的 580,000 小時音訊進行訓練,在針對 24 種測試語言的語音相似度與可懂度方面,表現優於商業系統;並在 102 種語言中達到或超過人類錄音的水準。
免責聲明:本頁面資訊可能來自第三方,不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考,不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證,對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為,價格波動劇烈,您可能損失全部投資本金。請充分了解相關風險,並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見
聲明。
相關文章
Spotify 今天推出 AI 生成的個人播客功能,允許儲存至圖書館
根據 MacRumors,Spotify 今天(5 月 8 日)推出一項新功能,允許使用者生成並儲存由 AI 驅動的個人播客,直接存放到他們的 Spotify 資料庫中。使用者可在桌面端安裝並登入「Save to Spotify CLI」,接著使用來自 OpenAI、Anthropic 等的 AI 程式碼代理工具來進行操作
GateNews5小時前
Benzinga 推出韓文翻譯引擎與 4 億字 AI 金融資料集
根據該公司說法,Benzinga 最近推出了一套韓文翻譯引擎,以及一個為 AI 訓練而設計的大規模韓文金融資料集。該系統能在即時將美國市場新聞翻譯成韓文,同時保留金融術語、代號(ticker)參照與市場脈絡。
GateNews8小時前
FLock.io 參與牛津圓桌會議,以推進砂拉越主權 AI 歐盟備忘錄(MoU)
根據 Foresight News,FLock.io 參與了牛津大學的一場圓桌討論,以推進關於沙勞越主權 AI 發展的三方諒解備忘錄。該討論聚焦於資料主權、AI 協作、資料安全治理以及硬體
GateNews9小時前
WORLD3 今天推出 RouterLink AI 路由網路,支援 68+ 個模型,包括 GPT-5.5 與 Claude Opus 4.7
根據 ChainCatcher,WORLD3 今日推出其去中心化 AI 路由網路 RouterLink,讓永久網域 routerlink.ai 成為可能。該平台目前在 20+ 家供應商上支援 68+ 個模型,並提供 99.9% 的正常運行時間,且在 $WAI 代幣中之每日結算速度超過 150 萬美元。
線上
GateNews14小時前
LG CNS 推出 PhysicalWorks 平台,用於混合機器人車隊管理
LG CNS,南韓 LG 集團旗下的資訊科技服務部門,根據《韓國先驅報》(The Korea Herald)的報導,推出其 PhysicalWorks 平台,透過單一整合式軟體層來訓練與管理混合式機器人機群。於一場展示中,來自 Unitree、Deep Robotics、Dexmate 和 Bear Robotics 的四台機器人移動了箱子
Crypto Frontier15小時前
CopilotKit 開源 Open Generative UI:Claude Artifacts 跨 Agent 框架實作
開源 AI Agent 前端框架 CopilotKit 5 月 7 日宣布推出 Open Generative UI、是 Anthropic Claude Artifacts 功能的開源實作。akshay\_pachaar 整理說明、CopilotKit 的版本讓 Agent 在執行時動態生成 HTML/SVG、以 token-by-token 串流方式顯示在 sandboxed iframe、用戶能即時看到介面組裝過程、不必等完整回應。在 Anthropic Claude Artifacts 之前、生成式 UI 能力只存在於 Anthropic 自家產品內;CopilotKit 把同樣模式對
鏈新聞abmedia16小時前