Together AI 推出语音代理平台,延迟低于700毫秒

Lawrence Jengar

2026年3月13日 01:57

Together AI 與 Deepgram 和 Cartesia 整合,推出統一語音代理基礎設施,針對企業部署,端到端延遲低於700毫秒。

Together AI 推出了一個統一的語音代理平台,將語音轉文字、語言模型和文字轉語音處理保持在同一基礎設施集群中。這家市值33億美元的人工智慧雲端新創公司聲稱,該設置的端到端延遲低於700毫秒——足夠自然流暢的對話。

該平台原生整合 Deepgram 進行轉錄,並與 Cartesia 進行語音合成,兩者都在 Together 的共置伺服器上運行,而非將音訊在多個雲端供應商之間傳輸。

為何共置對語音很重要

大多數生產用語音系統會將每個流程階段的供應商分開整合。音訊先送到一個供應商進行轉錄,再傳送到另一個供應商獲取大型語言模型(LLM)回應,最後送到第三個供應商進行語音合成。每次交接都會增加網路延遲和失敗風險。

Together 的主張是:將所有流程都留在同一資料中心。公司報告在最佳條件下延遲低於500毫秒,但700毫秒的數字是他們聲稱的端到端處理上限。

“語音代理的成敗取決於延遲,每一次供應商之間的網路跳轉都是體驗崩潰的可能點,”Deepgram 夥伴關係副總裁 Abe Pursell 表示。

無拼湊的模型彈性

該平台支援 Whisper Large v3、Minimax Speech 2.6 Turbo、Rime Arcana 和 Kokoro,並配合 Together 的完整 LLM 目錄。開發者可以在不重建整合的情況下切換元件——這對測試不同語音特性或特定用例的轉錄準確性團隊非常有用。

Cartesia 將其 Sonic-3 和 Sonic-2 TTS 模型引入平台。Deepgram 提供 Nova-3、Nova-3 Multilingual 進行轉錄,Flux 用於對話式語音轉文字,Aura-2 用於合成。

與不透明的語音轉語音系統不同,Together 的模組化方法保留對中間轉錄和回應文本的存取權。團隊可以在資料流中檢查、修改和路由數據——這是許多企業合規流程的必要條件。

企業需求與生產應用

該平台針對受規範行業,提供零資料保留選項、SOC 2 第 II 型認證、HIPAA 合規和專用資料駐留。運行客戶支援語音代理(處理帳單查詢和技術故障排除)的 Decagon 已經在此架構上運作。

Together AI 在2025年2月籌集了3.05億美元,估值33億美元,有報導指出公司目前正洽談以75億美元的估值進行募資。公司已超過45萬名開發者,年化收入突破1億美元。

語音平台的推出標誌著 Together 從其核心的 LLM 推理業務擴展到不斷成長的語音 AI 市場,在該市場中,延遲和可靠性仍是生產部署的主要痛點。

圖片來源:Shutterstock

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 留言
  • 轉發
  • 分享
留言
請輸入留言內容
請輸入留言內容
暫無留言