Google представляет Gemini 3.1 Flash TTS с улучшенным выражением эмоций и возможностями для нескольких спикеров

Сообщение Gate News, 17 апреля — Google представила Gemini 3.1 Flash TTS, усовершенствованную модель преобразования текста в речь с расширенными функциями выражения эмоций и контроля, 15 апреля. Новая модель будет поэтапно внедряться через API для разработчиков, корпоративную платформу Vertex AI и инструменты для совместной работы.

Ключевые возможности модели включают аудиотеги на основе естественного языка для тонкой настройки скорости, интонации и эмоций, а также «Director Mode» для указания сцен и ролей персонажей, чтобы генерировать более нюансированную голосовую подачу. Функция нескольких спикеров позволяет одновременно генерировать диалоги, обеспечивая более естественные сценарии общения, подходящие для подкастов, аудиоконтента и ИИ‑ассистентов. Модель поддерживает более 70 языков и диалектов, отражая региональные акценты и выражения для локализованного голосового опыта по всему миру.

Google подчеркнула производительность и эффективность по стоимости, добившись высоких результатов на бенчмарках слепой оценки людьми, одновременно снижая вычислительные затраты благодаря архитектуре Flash — она предназначена для масштабного корпоративного внедрения. Сгенерированное аудио включает водяной знак SynthID, чтобы идентифицировать контент, сгенерированный ИИ, и бороться с дезинформацией.

Этот шаг отражает усиливающуюся конкуренцию в голосовых интерфейсах. OpenAI объединяет функции реального времени для голоса с разговорным ИИ для взаимодействий, похожих на человеческие, а Meta расширяет инвестиции в ИИ‑персонажей с голосовыми социальными сценариями. Наблюдатели отрасли отмечают, что хотя высокоуровневое актерское мастерство и креативная работа, вероятно, пока останутся в основном ориентированными на людей, повторяющиеся и массовые рынки производства могут постепенно перейти к использованию ИИ в дубляже, рекламе и сегменте аудиокниг.

Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.

Связанные статьи

Данные раскрывают, что «Claude деградирует в плане интеллекта» — это не городской миф; нестабильность AI-моделей представляет риск для бизнеса

Статья рассматривает явление нестабильного поведения LLM (крупных языковых моделей) в прикладном использовании в AI-компаниях, называемое «утрата рассудительности», и приводит примеры того, как это реально влияет на рабочие процессы предприятий. Данные показывают, что большинство основных моделей находятся в состоянии деградации, что влияет на производительность и устойчивость компаний. Компании необходимо начать уделять устойчивости моделей внимание как новому стандарту, иначе они столкнутся с рисками для инфраструктуры.

ChainNewsAbmedia19м назад

OpenAI обновляет Codex до ИИ-агента, который управляет рабочим столом и автоматизирует процессы разработки

Обновлённый Codex от OpenAI развивается от инструмента для написания кода до автономного агента для настольных сред: он способен управлять приложениями, автоматизировать рабочие процессы и интегрироваться более чем с 100 приложениями. Такой сдвиг повышает непрерывность задач и автоматизацию рабочих процессов, отражая конкурентный ландшафт в инструментах ИИ для написания кода.

GateNews22м назад

Google интегрирует ИИ-поиск в Chrome, обеспечивая веб-серфинг в режиме диалога

Google улучшает Chrome с помощью поиска с ИИ, позволяя вести веб-серфинг в формате разговора и получать контекстно-осведомленные ответы. Новая функциональность также включает интеграцию с несколькими вкладками, улучшая пользовательский опыт для различных задач за счет объединения открытых вкладок и предоставления подобранной информации.

GateNews52м назад

Shinsegae Group отказывается от сотрудничества с OpenAI ради партнерства с Reflection AI, меняет стратегию в ритейле

Группа Shinsegae остановила партнерство с OpenAI, выбрав расширенное сотрудничество с Reflection AI, чтобы улучшить ИИ в ритейл-операциях. Это решение направлено на то, чтобы упорядочить усилия и решить опасения по поводу эффективности AI-коммерции.

GateNews1ч назад

OpenAI и Google добавляют поддержку формата HWP, Hancom стремится к росту оценки

ChatGPT от OpenAI теперь поддерживает форматы файлов HWP и HWPX, позволяя пользователям из Кореи загружать документы напрямую для анализа без конвертации. Это повышает удобство использования для местных компаний и может поддержать восстановление акций Hancom на фоне недавних спадов.

GateNews1ч назад

Google удаляет 175,5 млн объявлений в Южной Корее с помощью ИИ, применяя меры и приостанавливая 326 тыс. рекламных аккаунтов

В 2025 году Google удалил 175,5 млн нарушающих рекламу объявлений в Южной Корее с помощью ИИ, приостановил 326 000 аккаунтов и столкнулся с штрафом в $50 млн за нарушения приватности, что подчеркивает тенденцию к усилению правоприменения и роли ИИ в борьбе с рекламным мошенничеством.

GateNews1ч назад
комментарий
0/400
Нет комментариев