Fish Audio S2

Самый выразительный
голосовой ИИ в истории,
теперь с открытым кодом.

Генерируйте невероятно реалистичную речь

Попробуйте Fish Audio S2 сейчас

Что отличает S2

Создан с нуля для выразительности, скорости и открытости.

Сверхнизкая задержка

Время отклика менее 150мс обеспечивает разговорный ИИ в реальном времени, живой дубляж и интерактивные голосовые приложения. Производственная производительность без компромиссов в качестве.

<150ms

Открытое управление и мультиспикер

Управляйте эмоциями, паралингвистикой и многим другим с помощью естественных текстовых инструкций. Добавляйте смех, шёпот, вздохи и любые выразительные элементы. Бесшовные мультиспикерные диалоги — естественное переключение между говорящими в рамках одной генерации.

<|speaker:1|> [giggles]

Полностью открытый исходный код

Код инференса и веса модели полностью открыты. Запускайте S2 на своей инфраструктуре, дообучайте на своих данных и интегрируйте без привязки к поставщику. Создан для прозрачности и инноваций, движимых сообществом.

Built with SGLang

Создавайте с API Fish Audio S2

Генерируйте реалистичную речь на более чем 80 языках с управлением эмоциями, направлением и мультиспикером.

from fishaudio import FishAudio
from fishaudio.utils import save

# Initialize with your API key
client = FishAudio(api_key="your_api_key_here")

# Generate speech
audio = client.tts.convert(text="Fish Audio S2 is the best voice AI model.", model="s2-pro")
save(audio, "welcome.mp3")

Часто задаваемые вопросы

Fish Audio S2 Pro — это ведущая модель синтеза речи с тонким встроенным управлением просодией и эмоциями. Обученная на более чем 10 миллионах часов аудиоданных на 80+ языках, система сочетает выравнивание обучением с подкреплением и архитектуру двойной авторегрессии (Dual-AR) — Slow AR с 4 миллиардами параметров для семантического прогнозирования и Fast AR с 400 миллионами параметров для акустических деталей. Релиз включает веса модели, код для дообучения и потоковый движок инференса на основе SGLang.

S2 Pro обеспечивает локализованное управление генерацией речи путём встраивания инструкций на естественном языке непосредственно в текст с использованием синтаксиса [tag]. Вместо фиксированного набора предопределённых тегов S2 Pro принимает произвольные текстовые описания — такие как [whisper in small voice], [professional broadcast tone] или [pitch up] — обеспечивая открытое управление выразительностью на уровне слова. Поддерживается более 15 000 уникальных тегов, включая [pause], [emphasis], [laughing], [excited], [whisper], [singing] и многие другие.

На одном GPU NVIDIA H200 S2 Pro достигает коэффициента реального времени (RTF) 0,195, времени до первого аудио ~100 мс и пропускной способности более 3000 акустических токенов в секунду при сохранении RTF ниже 0,5. Движок инференса на основе SGLang наследует все оптимизации обслуживания, нативные для LLM — включая непрерывную пакетную обработку, постраничный KV-кэш, воспроизведение графов CUDA и кэширование префиксов на основе RadixAttention.

S2 Pro поддерживает более 80 языков. Языки первого уровня (наивысшее качество) включают японский, английский и китайский. Языки второго уровня включают корейский, испанский, португальский, арабский, русский, французский и немецкий. Также поддерживаются шведский, итальянский, турецкий, нидерландский, хинди, тайский, вьетнамский и другие.

S2 Pro лицензирован под Fish Audio Research License. Исследовательское и некоммерческое использование разрешено бесплатно. Для коммерческого использования требуется отдельная лицензия от Fish Audio — свяжитесь с business@fish.audio для получения подробной информации.