谷歌DeepMind，发布'Gemini 3.1 Flash TTS'…可通过文本调整语气语速

Techub News · 2026-04-17T13:48:52+00:00

谷歌DeepMind发布了新语音合成模型"Gemini 3.1 Flash TTS"，可通过文本指令调整语调、速度和氛围，支持70多种语言和多种口音。该模型注重自然性，并具备水印功能以应对虚假信息。其性能在盲测中位列第二，适用于多个领域，标志着语音生成AI竞争加剧。

2026-04-17 13:48:52

摘要生成中

谷歌的人工智能组织DeepMind公开了新的语音合成模型"Gemini 3.1 Flash TTS"。其核心在于不仅能比现有的机械语音更自然地说话，用户还能仅通过文本指令细致调整语气、速度和氛围。

通过文本指令控制语气·语调·速度

谷歌有限责任公司近期通过博客宣布推出了Gemini 3.1 Flash TTS。该模型在将聊天机器人响应转换为语音的过程中，能够反映"热情的"、“惊喜的”、"信息传达型"等指令词来改变语调和音色。

根据公开的演示视频，用户不仅能选择声音，还能调节语音的传达方式和氛围。如果说上一代TTS有些"像机器人"，那么这一代模型则侧重于实现更接近人类的表达力。

支持从英语地区口音到播客形式

Gemini 3.1 Flash TTS还提供多种主要语言的地区口音。以英语为例，不仅可以选择美式"Valley"和"Southern"口音，还能选择英式"Brixton"、"RP"等多种变体。此外还包括"跨大西洋"等特殊口音选项。

谷歌还为该模型加入了"导演级控制"功能。用户可以更精细地调整说话风格和速度，并能利用播客对话、有声书旁白、语言导师、语音助手、健康指南、新闻主播、客户支持专员等形式模板。

特别值得一提的是，当用户设定场景和环境，甚至输入台词指导时，该模型被设计成能让角色进行多次对话的同时保持一致的说话风格。谷歌解释说，可以将完成的设置值导出为Gemini API代码，从而在多个项目和平台中重现相同的声音。

支持70多种语言…并应用水印

据谷歌介绍，Gemini 3.1 Flash TTS的目标是提供更自然的语音体验。支持语言超过70种，包括日语、印地语、德语等。

此外，所有输出内容都嵌入了SynthID水印。此举被视为旨在便于识别AI生成的语音内容，以应对未来可能出现的深度伪造或虚假信息传播的担忧。

盲测排名第二…开发者可立即使用

其性能也得到了一定程度的验证。在反映数千次盲测人类偏好的"Artificial Analysis TTS排行榜"上，Gemini 3.1 Flash TTS以1211分位列总榜第二。谷歌表示，这意味着它获得了比多个热门TTS模型更高的评价。

目前，开发者可以立即通过Gemini API和谷歌AI工作室使用该模型。企业客户可通过Vertex AI访问，普通用户则可以在谷歌Biz中试用该功能。

此次发布表明，生成式AI的竞争正从文本和图像迅速扩展到语音领域。特别是在企业客户支持、媒体制作、教育、数字内容制作市场对"自然的AI语音"需求日益增长的情况下，Gemini 3.1 Flash TTS很可能将进一步提升相关市场的竞争激烈程度。

TP AI 注意事项使用基于TokenPost.ai的语言模型对文章进行了摘要。正文的主要内容可能被省略或与事实不符。

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

请输入评论内容

暂无评论

热门话题