英伟达通过Whisper和Canary模型扩展Riva ASR功能

CryptosHeadlines

2025-02-21 17:09:48

ASR0.22%

丽贝卡·摩恩

2025年2月21日10:54

英伟达利用Whisper和Canary模型增强其Riva ASR，集成离线和自动语音翻译的先进功能，实现多语言能力的提升。

NVIDIA通过引入Riva 2.18.0容器和SDK，显著推进了其自动语音识别(ASR)系统的增强功能。这些发展是NVIDIA持续努力改进其基于GPU加速的语音和翻译人工智能微服务的一部分，详情请参阅NVIDIA开发者博客中Sven Chilton的介绍。

新模型的整合

Riva的最新版本包括对Parakeet架构的支持，该架构促进了流式多语言ASR，以及Whisper和Canary模型，用于离线ASR和自动语音翻译(AST)。Whisper由OpenAI开发，而HuggingFace的Distil-Whisper模型现已成为Riva离线ASR功能的一部分，允许直接将多种语言的音频录音转录和翻译为英文。

Canary模型通过支持离线自动语音识别（ASR）和自动语音翻译（AST）进一步扩展了Riva的功能，涵盖了多种语言组合，包括任意语言到英语，英语到任意语言，以及任意语言到任意语言的翻译。这些模型满足了多样化的语言需求，为语言检测和翻译任务提供了强大的支持。

选择性NMT停用

此更新引入的一个显著特点是通过SSML标记选择性地停用神经机器翻译(NMT)过程的部分能力。此功能允许用户指定不应翻译的文本段，从而更好地控制翻译输出。此外，新的DNT字典使得可以指定某些单词或短语的翻译方式，增强了翻译过程的定制化。

部署和使用

通过Riva Skills快速入门资源文件夹，可以简化部署这些新功能，其中包括设置具有Whisper和Canary功能的Riva服务器所需的脚本和配置文件。用户可以根据其特定的ASR需求选择Whisper和Canary模型，并利用提供的脚本根据其GPU架构优化模型部署。

英伟达致力于扩大其ASR系统的语言和功能范围，这一点在集成这些先进模型和功能中得以体现。通过支持更广泛的语言范围并提供增强的翻译控制，Riva在语音识别和翻译技术方面继续树立行业标准。

有关英伟达最新的 ASR 进展的更多信息，请访问英伟达开发者博客。

图片来源：Shutterstock

查看原文

免责声明：本页面信息可能来自第三方，不代表 Gate 的观点或意见。页面显示的内容仅供参考，不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证，对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为，价格波动剧烈，您可能损失全部投资本金。请充分了解相关风险，并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明。

0/400

暂无评论