Предложение на ограниченное время- 50% СКИДКА НА ГОДВоспользоваться

Истории клиентов

TTS для голосового агента в реальном времени для 10 миллионов пользователей.

Как Dubbing AI построила Voice Agent на Fish Audio: единственный TTS, который дал все пять возможностей, нужных агенту в реальном времени, включая естественность, эмоциональную глубину, качество клонирования голоса, низкую задержку и многоязычную поддержку.

Отрасль
Потребительский рынок · Игры · Развлечения
Регион
Глобально
Сценарий
Голосовой агент (TTS в реальном времени)
Аудитория
10 млн+ пользователей
Развертывание
Cloud API · desktop и mobile
Статус
Voice Agent в бета-версии
10M+

В играх, стриминге и развлечениях: масштаб, на котором голосовой агент должен звучать реалистично в реальном времени и на языке пользователя.

Dubbing AI

Tiange Ling

CEO Dubbing AI

"Fish Audio дает исключительную естественность голоса, богатую эмоциональную выразительность и надежный TTS с низкой задержкой, который точно поддерживает ключевой опыт нашего продукта Voice Agent."

CEO Fish Audio

Rissa Cao

"Голосовые агенты - это сценарий, где проявляется каждый компромисс голосового AI. Нельзя быть быстрым и плоским или выразительным и медленным. Агент должен звучать реально, в реальном времени, на языке пользователя. Dubbing AI строит самую сложную версию этого: голос, который говорит за пользователя, когда он не может или не хочет говорить сам. Планка - реализм на уровне идентичности, и именно для этой планки мы создали S2 Pro."
Dubbing AI

О Dubbing AI — 10 миллионов пользователей для создания, клонирования и изменения голоса.

Dubbing AI — локальный AI-продукт для голосовых технологий, который объединяет создание голоса, клонирование голоса и изменение голоса в реальном времени на desktop и mobile. Платформа обслуживает более 10 миллионов пользователей по всему миру в трех основных аудиториях: создатели контента и стримеры, пользователи для личных развлечений, а также коммерческие пользователи, включая рекламные агентства и медиакомпании.

Dubbing AI — это голосовой слой для геймеров, стримеров и бренд-креаторов, которым нужно формировать, менять или клонировать голос в реальном времени на платформах, где они работают.

Представляем Voice Agent — агента, который говорит за вас.

Новая функция Dubbing AI, Voice Agent, расширяет голосовой набор платформы от изменения голоса к говорению от имени пользователя. Вместо изменения собственного голоса пользователя Voice Agent говорит за него.

Сценарии сразу понятны и человечны. Когда игрок находится в споре и не хочет его обострять, Voice Agent может говорить за него. Когда человек слишком устал, чтобы звонить и бронировать столик, Voice Agent делает это. Когда пользователь стесняется, занят работой или временно не может общаться, Voice Agent позволяет взаимодействовать с другими в реальном времени.

Это продолжение продуктовой миссии Dubbing AI во всех функциях платформы — изменение голоса, улучшение акцента, перевод в реальном времени, а теперь и Voice Agent: помогать людям общаться плавнее и выражать себя эффективнее. Voice Agent переносит эту миссию в ситуации, где говорить самому невозможно или нежелательно.

Чтобы Voice Agent работал, AI-голос должен ощущаться настоящим. Слушатель — игровой соперник, администратор ресторана или человек на другом конце линии — должен чувствовать, что разговаривает с реальным человеком, а не с очевидно синтетическим голосом. Здесь и появился Fish Audio.

Сложность TTS в реальном времени для голосовых агентов: задержка против естественности.

Голосовые агенты делают самый трудный компромисс голосового AI очевидным. TTS в реальном времени для агентов должен балансировать задержку, естественность и эмоцию, но большинство провайдеров заставляют выбирать. Модели с низкой задержкой часто звучат плоско и машинно; выразительные модели часто дают задержки обработки, которые ломают поток разговора.

Для Dubbing AI Voice Agent оба фактора одинаково критичны. Заметная пауза между вводом пользователя и ответом разрушает иллюзию разговора с реальным человеком. Мгновенный, но роботизированный ответ разрушает ту же иллюзию иначе. Решает не один фактор, а их сочетание.

Почему Dubbing AI оценивала рынок TTS для инфраструктуры voice agent.

Перед выбором Fish Audio Dubbing AI оценила несколько TTS-аудио workflows. Критерии напрямую отражали требования TTS для voice agents: естественность, эмоциональная глубина, качество клонирования голоса, низкая задержка и многоязычная поддержка — пять возможностей, из которых большинство провайдеров дают две или три, но редко все пять.

Для Voice Agent на 10 миллионов пользователей в играх, развлечениях и коммерческих сценариях модель с отличной естественностью, но слабым multilingual, не подходила. Модель с отличной задержкой, но плоской эмоцией, тоже не подходила. Voice Agent требовал оценки «все пять или ничего».

Почему Fish Audio выиграл оценку Voice Agent — все пять критериев.

Fish Audio выделился сочетанием, которого Dubbing AI не нашла больше нигде: все пять возможностей на уровне, нужном агенту в реальном времени. Победители по отдельным критериям у других провайдеров не проходили для Voice Agent. Fish был единственной моделью, которая заслужила место по всем измерениям оценки.

· Естественность
Голос звучит как реальный человек, а не как синтезатор, читающий текст.
· Эмоциональная глубина
Эмоциональный регистр сохраняется на протяжении фразы — слой, который большинство низколатентных моделей сглаживает.
· Качество клонирования голоса
Клонированные голоса сохраняют идентичность в разном контенте, что важно для creators и entertainment-аудиторий Dubbing AI.
· Низкая задержка
Ответ в реальном времени без заметной задержки обработки — базовое ограничение любого разговорного агента.
· Многоязычная поддержка
80+ языков с естественным code-switching, необходимым для Voice Agent с глобальной аудиторией.

Как Dubbing AI использует Fish Audio для TTS голосового агента в реальном времени.

Dubbing AI внедряет Fish Audio через cloud API для генерации text-to-speech в реальном времени внутри Voice Agent. Когда пользователи пишут текст, который должен произнести агент, Fish превращает его в естественный, эмоционально выразительный голос в реальном времени на языках и акцентах, нужных глобальной базе Dubbing AI.

Voice Agent работает кроссплатформенно на desktop и mobile, как и остальная поверхность Dubbing AI. Voice Agent готовится к beta-релизу сначала для gamer-аудитории платформы — сегмента с самым сильным спросом на эти сценарии. Результаты внутренних тестов перед beta очень позитивные.

Результаты интеграции.

Используемые продукты: Fish Audio S2 Pro · Text-to-Speech (cloud API)

10M+ пользователей широкой платформы Dubbing AI среди gaming, streaming и commercial creators.

Fish Audio выполнил 5 из 5 критериев: естественность, эмоциональная глубина, качество клонирования, низкая задержка, multilingual.

Voice Agent beta сначала запускается для gamer-аудиторий, внутренние тесты позитивные.

Кроссплатформенное развертывание на desktop и mobile, соответствующее полной поверхности Dubbing AI.

Что дальше для Dubbing AI и Fish Audio.

По мере перехода Voice Agent из беты к общей доступности для 10 миллионов пользователей Dubbing AI, Fish Audio остается realtime TTS-слоем, который обеспечивает этот опыт. Будущие расширения Voice Agent (на большее число языков, ситуаций и кроссплатформенных контекстов) будут выходить вместе с постоянными улучшениями моделей Fish.

Fish Audio

Создаете голосового агента?

Обсудите с нашей командой realtime TTS, который сочетает естественность, эмоциональную глубину, задержку и многоязычность — именно такую комбинацию требуют голосовые агенты.