Голосовая инфраструктурадля компаний

Выразительная, управляемая голосовая модель реального времени, на которой работают HeyGen, Retell, Sierra и новое поколение разработчиков голосового ИИ. Готова к продакшену для видео с аватарами, голосовых агентов, персонажных приложений, аудиоконтента, многоязычной поддержки и перевода с сохранением голоса.

Связаться с продажами Послушать модель Смотреть цены

S2 Pro работает вживую. Выберите голос, введите фразу и сразу послушайте результат. Та же модель, которую используют продакшен-команды, без регистрации, звонка с продажами и демо-среды.

80+

Языки

2M+

Библиотека голосов

$15/1M символов

Фиксированный тариф API

<150мс

Первое аудио ( cloud )

Нам доверяют команды, создающие голос в продакшене

Голосовые агенты и диалоговый ИИ

Озвучка видео, дубляж и музыка

Интерактивные и социальные

Образование и обучение

Шесть причин, по которым голосовые команды переходят.

Большинство TTS хорошо звучит в демо. Fish создан для того, что происходит дальше: продакшен-трафика, сложного произношения, многоязычного переключения, суверенных развертываний и общей стоимости, которая позволяет масштабироваться, а не просто выживать.

Продакшен

В списке Artificial Analysis · публичная методология

Бенчмарки

Работает для HeyGen, Retell, Sierra и FinalRound

Произношение

Пользовательские словари · числа, имена, доменные термины

S2 Pro входит в голосовой рейтинг Artificial Analysis и поддерживает продакшен-развертывания HeyGen, Retell и Sierra, обрабатывая реальный трафик, сложное произношение и мультирегиональную нагрузку, которая показывает то, что упускают бенчмарки.

Продакшен

В списке Artificial Analysis · публичная методология

Произношение

Пользовательские словари · числа, имена, доменные термины

Бенчмарки

Работает для HeyGen, Retell, Sierra и FinalRound

15 000+ тегов управления на естественном языке. Опишите, что хотите — {теплый, разговорный, легкий бостонский акцент, мягкое нисходящее окончание} — и Fish это сгенерирует. S2 Pro проходит Audio Turing Test с опубликованным результатом 0,515: слушатели не могут надежно отличить его от человеческой речи. Методология и исходное аудио опубликованы.

Мандаринский, японский, корейский и кантонский на уровне носителя, с мгновенным переключением между английским, мандаринским, японским, испанским и арабским. APAC-покрытие, которое другие голосовые вендоры все еще обещают на следующий квартал, уже работает в продакшене сегодня.

Просматривайте 2M+ голосов, обученных создателями и готовых к использованию уже сегодня, или клонируйте свой голос по 30 секундам аудио. Без квот на слоты и без платы за каждый голос. Клонирование голоса со встроенной проверкой согласия в рабочем процессе.

Для регулируемых нагрузок, суверенных развертываний и команд, которым нужен полный контроль над моделью в продакшене, Fish предлагает self-hosting как премиальный enterprise-уровень. Запускайте в своей VPC, изолированной среде или дата-центре. Это архитектура, которую закупки просят и редко получают.

$15 за миллион символов — фиксированно, предсказуемо, тот же тариф за символ от первого API-вызова до миллиардного. Объемные скидки суммируются по мере роста, на нескольких уровнях, и обсуждаются с одной командой. Без платы за места. Без неожиданных барьеров для продакшен-тарифов.

Результаты в продакшене,а не победы в демо.

Главное не просто качество. Главное, чего команды достигли после перехода. Каждая история - измеримый результат, написанный клиентом.

Выбрано с преимуществом 3 к 1 перед альтернативами для клонирования голоса с неамериканскими английскими акцентами.

Обеспечивает выразительность на уровне персонажа для японских AI-персонажей в Picto VOICE.

TTS для голосовых агентов в реальном времени для 10 млн+ пользователей: естественность, эмоции, задержка и многоязычность.

Голосовые агенты в продакшене с оркестрацией в реальном времени для корпоративных разговоров.

Онлайн-коучинг для интервью с задержкой в реальном времени.

Шесть категорий голосовых продуктов,
которые уже работают в продакшене.

От аватар-видео до многоязычной поддержки клиентов: каждая категория ниже - реальное корпоративное внедрение на Fish, а не обещание из дорожной карты.

Голос для AI-агента

Приложения с персонажами и компаньонами.

Аватар-видео

Многоязычная поддержка клиентов.

Мандаринский · Японский · Корейский · Кантонский

Клонирование голоса в масштабе.

Экосистема 2 млн голосов · клон за 30 сек.

Аудиоперевод и дубляж.

Все 80+ языков · переключение кодов

Подключается к стеку голосовых агентов, который вы уже используете.

Готовая поддержка инструментов оркестрации, телефонии и инфраструктуры, с которыми голосовые команды выпускают продукты сегодня. SDK для всех основных языков. WebSocket-стриминг, REST и входящие webhook-паттерны задокументированы.

Пайплайны реального времени

Инфраструктура WebRTC

Автоматизация workflow

Платформа голосовых агентов

Телефония · SIP · SMS

Оркестрация голосовых агентов

Пайплайны реального времени

Инфраструктура WebRTC

Автоматизация workflow

Платформа голосовых агентов

Телефония · SIP · SMS

Оркестрация голосовых агентов

Практичные вещи, которые важны на звонке с клиентом.

Для продакшен-внедрений стартуйте с уровня Enterprise. При более высоких обязательствах действуют скидки за объем: обсудите с отделом продаж цену под ваш профиль трафика. Для суверенных внедрений доступен premium self-host с отдельной структурой настройки и обязательств.

До99%

SLA ДОСТУПНОСТИ
Доступно на premium enterprise уровне

<150мс

ПЕРВОЕ АУДИО (ОБЛАКО)
Проверено в регионах США, ЕС и APAC

Custom

ПАРАЛЛЕЛЬНЫЕ ПОТОКИ
50+ на High Volume · custom на Enterprise

80+

ЯЗЫКИ
С голосами нативного качества и переключением кодов

Создано под то, как вы реально растете.

Один enterprise-уровень. Фиксированная цена за символ. Скидки за объем на нескольких уровнях по мере роста, согласованные с одной командой в одном контракте.

Что входит

План Enterprise

Условия и примечания

Стартовая цена

От $999 / месяц

Скидки за объем на более высоких уровнях обязательств

TTS · S2 Pro

$15 / 1 млн символов

Биллинг в UTF-8 байтах · около 180 тыс. английских слов на 1 млн

TTS · S1

$15 / 1 млн символов

Та же фиксированная ставка, что у S2 Pro

ASR · transcribe-l

$0.36 / аудиочас

Длительность округляется вверх до ближайшей секунды

Параллельность

Custom

50+ на High Volume · custom на Enterprise

Голоса

Без лимита

Без квот слотов · без платы за отдельный голос

Перенос

90 дней

Неиспользованные кредиты переносятся на 90 дней

SLA

До 99%

Доступно на premium enterprise уровне

Поддержка

Выделенный канал Slack

SOC2 / HIPAA по запросу

Self-host premium

От $10K setup + $10K / месяц

12 месяцев обязательств · VPC · on-prem · air-gapped · sovereign cloud

Скидки за объем доступны на нескольких уровнях. Свяжитесь с продажами для цены под ваш профиль трафика. Публичная цена отражает вход в Enterprise; большие обязательства открывают дополнительные скидки для клиента.

Готовы, когда будете готовы вы.

Обсудите внедрение с нашей командой. Мы придем подготовленными.

Связаться с продажами

Часто задаваемые вопросы

Где хранятся мои данные? Поддерживаете ли вы резидентность данных в США, ЕС и APAC?

По умолчанию ваши данные остаются в США, размещаются в Google Cloud с хранилищем Cloudflare R2, а инференс выполняется из edge-регионов в США и Азиатско-Тихоокеанском регионе (Токио), чтобы ваши пользователи получали низкую задержку где бы они ни находились. Для рабочих нагрузок с требованиями комплаенса enterprise-контракты могут включить Zero Data Retention, что означает, что текст и аудио запросов никогда не записываются на диск. Если данные должны оставаться внутри конкретной страны или региона, self-hosted enterprise tier полностью работает в вашей собственной инфраструктуре, поэтому ничего не покидает вашу среду.

Можете ли вы поддерживать крупные развертывания и всплески трафика?

Да, и на серьезном объеме. Емкость предоставляется как количество одновременных генераций, которое масштабируется вместе с вашим контрактом, и у нас уже есть production-клиенты, выполняющие более 1 000 одновременных генераций. Rust edge gateway обслуживает инференс в нескольких GPU-регионах, поэтому при всплеске трафика наша команда может поднять ваши лимиты в тот же день. Вы масштабируетесь без ожидания в очереди support-тикетов.

Какие сертификаты безопасности у вас есть?

Безопасность проходит через каждый слой платформы. Наш аудит SOC 2 Type II сейчас продолжается, и отчет будет доступен клиентам под NDA после завершения. Zero Data Retention доступен в enterprise-контрактах, поэтому payloads запросов никогда не сохраняются, а self-hosted tier удерживает каждый байт ваших данных внутри вашей собственной среды. Мы также поддерживаем конфигурации, согласованные с HIPAA, и можем подписать BAA для подходящих healthcare-нагрузок; независимое пенетрационное тестирование проводится в рамках нашей постоянной программы комплаенса.

Предлагаете ли вы инженерную поддержку для кастомных развертываний?

Конечно. Enterprise-клиенты получают прямой канал к нашей инженерной команде, а не очередь тикетов, в том канале, который подходит вашему рабочему процессу. Мы регулярно поставляем интеграционно-специфичные функции и расширения протоколов для отдельных клиентов, а self-hosted-развертывания поднимаем вместе с вами end to end, от первой настройки до go-live.

Поддерживаете ли вы SSO и RBAC?

Да, с детальным контролем с первого дня. Ролевой контроль доступа позволяет назначать роли owner, admin и member на уровне команды, а также роли manager, contributor и viewer на уровне workspace, чтобы у каждого был ровно тот доступ, который нужен. Single sign-on уже работает через Google и GitHub OAuth.

Можем ли мы дообучать модели на своих данных или использовать собственные голоса?

И то и другое, на ваших условиях. Вы можете мгновенно создавать private voice clones через API или web UI всего из 10 секунд reference audio, а для лучших результатов рекомендуем 30 секунд или больше; они остаются полностью приватными для вашей команды. Для более глубоких проектов мы также fine-tune кастомные модели на ваших собственных данных.

Что насчет миграции с другого голосового провайдера?

Миграция на Fish Audio проходит просто, и большинство команд удивляется, насколько быстро это происходит. Ваши существующие голоса переносятся путем повторного создания из reference audio, наши SDK для Python, TypeScript и Go и WebSocket streaming API покрывают интеграционные паттерны, на которые вы уже опираетесь, а наша инженерная команда проводит cutover вместе с вами, чтобы production не останавливался.