Google AI 開發者關係負責人 Logan Kilpatrick 於 4 月 15 日宣布推出 Gemini 3.1 Flash TTS — Google 最新的文字轉語音模型。這款模型支援 70 種語言、場景導演(scene direction)、說話者級別的精細控制與音訊標籤,目前已在 Google AI Studio 的音訊 playground 和 Gemini API 中開放使用。
四大核心功能
Gemini 3.1 Flash TTS 相較於前代有四項顯著升級:
場景導演(Scene Direction)— 可以為語音設定情境,例如「在嘈雜的咖啡廳中低聲說話」或「興奮地宣布好消息」,模型會根據場景調整語調、語速和情緒
說話者級別控制(Speaker-Level Specificity)— 在多角色對話中,可以為每個角色設定不同的聲音特徵
音訊標籤(Audio Tags)— 支援在文本中插入音效指令,控制停頓、語氣變化等細節
70 種語言支援 — 大幅擴展多語言覆蓋,包含中文
更自然、更有表現力的聲音
Google 強調這款模型在語音自然度上的進步。傳統 TTS 模型的輸出常被批評為「聽起來像 AI」,Gemini 3.1 Flash TTS 試圖透過更豐富的韻律變化和情緒表達來縮小與人類語音的差距。Kilpatrick 指出,從 Gemini 2.5 到 3.1 的進步「非常顯著」。
開發者如何使用
開發者可透過兩種方式使用:
Google AI Studio 音訊 Playground — 直接在網頁介面中測試和預覽語音效果
Gemini API — 整合至應用程式中,用於語音助理、有聲書、Podcast 自動生成、多語言客服等場景
Gemini 產品線持續擴張
Flash TTS 是 Gemini 3.1 系列近期密集發布的一環。此前 Google 已推出 Gemini Robotics ER 1.6(機器人視覺推理)、Tab Tab Tab(Vibe Coding prompt 補全)和設計預覽等功能。Google 正在將 Gemini 從「聊天模型」擴展為涵蓋文字、語音、視覺、機器人的全模態 AI 平台。
這篇文章 Google 推出 Gemini 3.1 Flash TTS:支援 70 種語言與場景導演,AI 語音更自然 最早出現於 鏈新聞 ABMedia。
免責聲明:本頁面資訊可能來自第三方,不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考,不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證,對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為,價格波動劇烈,您可能損失全部投資本金。請充分了解相關風險,並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見
聲明。
相關文章
Google 與 Boston Dynamics 將 Gemini AI 模型整合至 Spot 機器人:用於自然語言控制與任務執行
Google 和 Boston Dynamics 已將 Gemini Robotics 模型整合到 Spot 機器人中,使其能理解自然語言指令、辨識物件,並自主執行任務,進而提升機器人領域的效率與適應性。
GateNews13分鐘前
Nas Daily 創作者 Nuseir Yassin 為 AI 商業建構平台在 A 輪中募得 $27M 百萬美元
Nas.com 由 Nas Daily 的創辦人 Nuseir Yassin 創立,已在 Khosla Ventures 領投的 A 輪融資中募得 $27 百萬美元。這凸顯了一個趨勢:創作者正進軍科技領域,並運用他們的受眾來推動商業成長。
GateNews15分鐘前
在 Meta 合約結束後,Sama 將裁撤超過 1,100 名肯亞工人
Samasource Impact Sourcing Inc 將在 Meta 終止一份關鍵合約後,於奈洛比裁撤超過 1,100 名員工。儘管公司努力保住工作,但其依賴主要的美國科技客戶,凸顯出非洲 AI 外包產業的不穩定性。
GateNews15分鐘前
Anthropic 發布 Claude Opus 4.7:推理能力再進化,不再只是答題工具
Anthropic 發布的 Claude Opus 4.7 強化了推理能力與長文本處理,從作答工具轉型為決策助手,提升了上下文理解與安全性。此更新顯示產業競爭重點從模型性能轉向實用性,標誌生成式 AI 從實驗技術邁向成熟應用。
鏈新聞abmedia21分鐘前
CoreWeave 以 9.75% 票息收益率發行 $1 十億美元之高級票據;繼 1.75 十億美元首發債券後
CoreWeave 宣布將發行 $1 十億美元的無擔保優先票據,票面利率為 9.75%,其發行時點緊接著在發行 1.75 十億美元債券之後。所得資金將用於償還債務及公司一般用途,反映 CoreWeave 資本密集型的商業模式,以及對 GPU 託管租賃的強勁需求。
GateNews1小時前
阿里巴巴 Qwen Lab 發布具稀疏 MoE 架構的 Qwen3.6-35B-A3B 模型
阿里巴巴的 Qwen Lab 已推出 Qwen3.6-35B-A3B,這是一款開源的大型語言模型,採用稀疏混合專家(mixture-of-experts)架構,具備代理式程式設計能力,方便與第三方程式碼助理整合;模型參數規模為 35 billion。
GateNews1小時前