谷歌DeepMind,发布'Gemini 3.1 Flash TTS'…可通过文本调整语气语速

robot
摘要生成中

谷歌的人工智能组织DeepMind公开了新的语音合成模型"Gemini 3.1 Flash TTS"。其核心在于不仅能比现有的机械语音更自然地说话,用户还能仅通过文本指令细致调整语气、速度和氛围。

通过文本指令控制语气·语调·速度

谷歌有限责任公司近期通过博客宣布推出了Gemini 3.1 Flash TTS。该模型在将聊天机器人响应转换为语音的过程中,能够反映"热情的"、“惊喜的”、"信息传达型"等指令词来改变语调和音色。

根据公开的演示视频,用户不仅能选择声音,还能调节语音的传达方式和氛围。如果说上一代TTS有些"像机器人",那么这一代模型则侧重于实现更接近人类的表达力。

支持从英语地区口音到播客形式

Gemini 3.1 Flash TTS还提供多种主要语言的地区口音。以英语为例,不仅可以选择美式"Valley"和"Southern"口音,还能选择英式"Brixton"、"RP"等多种变体。此外还包括"跨大西洋"等特殊口音选项。

谷歌还为该模型加入了"导演级控制"功能。用户可以更精细地调整说话风格和速度,并能利用播客对话、有声书旁白、语言导师、语音助手、健康指南、新闻主播、客户支持专员等形式模板。

特别值得一提的是,当用户设定场景和环境,甚至输入台词指导时,该模型被设计成能让角色进行多次对话的同时保持一致的说话风格。谷歌解释说,可以将完成的设置值导出为Gemini API代码,从而在多个项目和平台中重现相同的声音。

支持70多种语言…并应用水印

据谷歌介绍,Gemini 3.1 Flash TTS的目标是提供更自然的语音体验。支持语言超过70种,包括日语、印地语、德语等。

此外,所有输出内容都嵌入了SynthID水印。此举被视为旨在便于识别AI生成的语音内容,以应对未来可能出现的深度伪造或虚假信息传播的担忧。

盲测排名第二…开发者可立即使用

其性能也得到了一定程度的验证。在反映数千次盲测人类偏好的"Artificial Analysis TTS排行榜"上,Gemini 3.1 Flash TTS以1211分位列总榜第二。谷歌表示,这意味着它获得了比多个热门TTS模型更高的评价。

目前,开发者可以立即通过Gemini API和谷歌AI工作室使用该模型。企业客户可通过Vertex AI访问,普通用户则可以在谷歌Biz中试用该功能。

此次发布表明,生成式AI的竞争正从文本和图像迅速扩展到语音领域。特别是在企业客户支持、媒体制作、教育、数字内容制作市场对"自然的AI语音"需求日益增长的情况下,Gemini 3.1 Flash TTS很可能将进一步提升相关市场的竞争激烈程度。

TP AI 注意事项 使用基于TokenPost.ai的语言模型对文章进行了摘要。正文的主要内容可能被省略或与事实不符。

此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论