Together AI Lança Plataforma de Agente de Voz Com Latência Inferior a 700ms

Lawrence Jengar

13 de mar de 2026 01:57

Together AI estreia uma infraestrutura unificada de agentes de voz com integrações Deepgram e Cartesia, visando implantações empresariais com latência de ponta a ponta abaixo de 700ms.

Together AI lançou uma plataforma unificada de agentes de voz que mantém o processamento de fala para texto, modelos de linguagem e texto para fala na mesma infraestrutura de cluster. A startup de IA em nuvem, avaliada em 3,3 bilhões de dólares, afirma que a configuração oferece uma latência de ponta a ponta inferior a 700 milissegundos — rápida o suficiente para um fluxo de conversa natural.

A plataforma integra-se nativamente com Deepgram para transcrição e Cartesia para síntese de voz, ambos rodando em servidores co-localizados da Together, em vez de transmitir áudio entre múltiplos provedores de nuvem.

Por que a co-localização é importante para voz

A maioria dos sistemas de voz de produção combina fornecedores separados para cada etapa do pipeline. O áudio passa por um provedor para transcrição, depois para outro para a resposta do LLM, e por fim para um terceiro para síntese de fala. Cada transferência adiciona latência de rede e pontos de falha.

A proposta da Together: manter tudo no mesmo data center. A empresa relata latência inferior a 500ms em condições ideais, embora os 700ms representem o limite máximo declarado para o processamento de ponta a ponta.

“Agentes de voz vivem ou morrem pela latência, e cada salto de rede entre provedores é um ponto onde a experiência pode se deteriorar”, disse Abe Pursell, VP de Parcerias da Deepgram.

Flexibilidade de modelos sem patchwork

A plataforma suporta Whisper Large v3, Minimax Speech 2.6 Turbo, Rime Arcana e Kokoro, além do catálogo completo de LLMs da Together. Os desenvolvedores podem trocar componentes sem precisar reconstruir integrações — útil para equipes que testam diferentes características de voz ou precisão de transcrição para casos específicos.

A Cartesia traz seus modelos Sonic-3 e Sonic-2 TTS para a plataforma. A Deepgram contribui com Nova-3, Nova-3 Multilingual para transcrição, Flux para STT conversacional e Aura-2 para síntese.

Ao contrário de sistemas opacos de fala para fala, a abordagem modular da Together preserva o acesso às transcrições intermediárias e ao texto de resposta. As equipes podem inspecionar, modificar e roteirizar dados durante o fluxo — uma exigência para muitos fluxos de trabalho de conformidade empresarial.

Requisitos empresariais e uso em produção

A plataforma é voltada para indústrias reguladas, com opções de retenção zero de dados, certificação SOC 2 Tipo II, conformidade com HIPAA e residência de dados dedicada. A Decagon, que opera agentes de voz de suporte ao cliente lidando com questões de faturamento e resolução técnica, já utiliza essa stack.

A Together AI levantou 305 milhões de dólares em fevereiro de 2025, com uma avaliação de 3,3 bilhões de dólares, e há relatos de que a empresa está em negociações para levantar fundos a uma avaliação de 7,5 bilhões. A empresa já conta com mais de 450.000 desenvolvedores e ultrapassou 100 milhões de dólares em receita anualizada.

O lançamento da plataforma de voz representa a expansão da Together além do seu negócio principal de inferência de LLM para o crescente mercado de IA de voz, onde latência e confiabilidade continuam sendo pontos críticos para implantações em produção.

Fonte da imagem: Shutterstock

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Marcar