Xiaomi lança open source OmniVoice: um modelo de clonagem de voz que cobre 646 idiomas

robot
Geração do resumo em andamento

Notícias do Coinjie.com, o laboratório de IA da Xiaomi lançou uma nova geração da equipe Kaldi, o OmniVoice, um modelo de TTS (texto para fala) de clonagem de voz zero-shot que suporta 646 idiomas.
O modelo consegue clonar o timbre usando apenas alguns segundos de áudio de referência, suportando conversão entre idiomas.
O código, pesos e dados de treinamento estão totalmente abertos, sob licença Apache-2.0.
A arquitetura do OmniVoice segue uma abordagem minimalista, com apenas um Transformer bidirecional, mapeando diretamente do texto para tokens acústicos de múltiplos códigos, sem necessidade de pipeline em duas etapas.
Os dados de treinamento vêm de 50 conjuntos de dados de voz de código aberto, filtrados por redução de ruído e qualidade, totalizando 580 mil horas.
Em testes em 24 idiomas, o modelo superou várias soluções comerciais em similaridade de voz e inteligibilidade, e em 102 idiomas, a inteligibilidade foi próxima ou até superior à gravação real.
Além da clonagem de voz, o modelo também suporta personalização de timbre por descrição textual, redução automática de ruído em áudio de referência com ruído, entre outras funções.

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Marcar