Gate News 消息,4 月 17 日——Google 于 4 月 15 日公布 Gemini 3.1 Flash TTS,这是一款先进的文本转语音模型,具备增强的情感表达与控制特性。新模型将通过开发者 API、企业 Vertex AI 以及协作工具逐步推出。
该模型的核心能力包括基于自然语言的音频标签,用于加快微调速度、控制语调与情感;另配备“导演模式”,可用于指定场景与角色身份,以生成更细腻的语音输出。多说话人功能可实现同时生成对话内容,使对话流程更自然,适用于播客、有声内容以及 AI 助手。该模型支持 70 多种语言和方言,体现了地区口音与表达方式,为全球本地化语音体验提供支持。
Google 强调性能与成本效率,在盲测的人类评估基准上取得了高分,同时通过其 Flash 架构降低了计算成本——该架构面向大规模企业采用进行了设计。生成的音频包含 SynthID 水印,用于识别 AI 生成内容并打击不实信息。
此举体现了语音交互领域竞争的进一步加剧。OpenAI 正将实时语音能力与对话式 AI 结合,以实现类似人类的交互,而 Meta 则在具有语音驱动的社交体验方面扩大对 AI 角色的投入。行业观察者指出,尽管高水平的表演和创意工作目前仍可能由人类主导,但重复性与大规模生产市场可能会在配音、广告和有声读物等领域逐步迎来 AI 采用。
免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见
声明。
相关文章
数据显示“Claude 降智”并非都市传说,AI 模型不稳定成企业风险
本文探讨LLM(大语言模型)在AI企业应用中表现不稳定的现象,将其称为“降智”,并举例说明其对企业工作流程的实际影响。数据显示,多数主流模型都处于降级状态,影响企业生产力及稳定性。企业需要开始重视模型的稳定性,作为新的标准;否则将面临基础设施风险。
鏈新聞abmedia19 分钟前
OpenAI 更新 Codex:AI 代理可控制桌面,自动化开发工作流程
OpenAI 升级版 Codex 正在从编程助手演进为面向桌面环境的自主代理,能够管理应用、自动化工作流程,并与 100 多个应用集成。此转变增强了任务连续性与工作流自动化,反映出 AI 编程工具领域的竞争格局加剧。
GateNews22 分钟前
Google 将 AI 搜索集成进 Chrome,实现对话式网页浏览
Google 正在通过 AI 驱动的搜索增强 Chrome,支持对话式浏览和具备情境感知的回应。新功能还加入了多标签集成,通过整合已打开的标签并提供定制化信息,提升用户在各类任务中的体验。
GateNews52 分钟前
新世界集团放弃与 OpenAI 的合作,转向与 Reflection AI 的伙伴关系,调整零售战略
新世界集团已暂停与 OpenAI 的合作,选择与 Reflection AI 进行更深度的协作,以提升零售运营中的人工智能能力。该决定旨在简化相关工作,并解决关于 AI 商务(AI commerce)有效性的担忧。
GateNews1小时前
OpenAI 和 Google 增加对 HWP 格式的支持,韩讯寻求估值回升
OpenAI 的 ChatGPT 现在支持 HWP 和 HWPX 文件格式,使韩国用户能够直接上传文档进行分析,而无需进行转换。这提升了本地企业的易用性,并可能在近期下跌之际推动韩讯(Hancom)股价的反弹。
GateNews1小时前
谷歌使用 AI 在韩国移除 1.755 亿条广告,暂停 32.6 万名广告主账户
2025 年,谷歌使用 AI 在韩国移除 1.755 亿条违规广告,暂停了 326,000 个账户,并因隐私违规面临 $50 百万的罚款,这凸显了执法力度不断增强以及 AI 在打击广告欺诈方面的作用。
GateNews1小时前