What is Fish Audio S2 Pro?

Fish Audio S2 Pro is a leading text-to-speech model with fine-grained inline control of prosody and emotion. Trained on over 10M+ hours of audio data across 80+ languages, it combines reinforcement learning alignment with a Dual-Autoregressive (Dual-AR) architecture — a 4B-parameter Slow AR for semantic prediction and a 400M-parameter Fast AR for acoustic detail. The release includes model weights, fine-tuning code, and an SGLang-based streaming inference engine.

How does fine-grained inline control work?

S2 Pro enables localized control over speech generation by embedding natural-language instructions directly within the text using [tag] syntax. Rather than relying on a fixed set of predefined tags, S2 Pro accepts free-form textual descriptions — such as [whisper in small voice], [professional broadcast tone], or [pitch up] — allowing open-ended expression control at the word level. Over 15,000 unique tags are supported, including [pause], [emphasis], [laughing], [excited], [whisper], [singing], and many more.

What is the streaming performance of S2 Pro?

On a single NVIDIA H200 GPU, S2 Pro achieves a Real-Time Factor (RTF) of 0.195, time-to-first-audio of ~100ms, and throughput of 3,000+ acoustic tokens per second while maintaining RTF below 0.5. The SGLang-based inference engine inherits all LLM-native serving optimizations — including continuous batching, paged KV cache, CUDA graph replay, and RadixAttention-based prefix caching.

How many languages does S2 Pro support?

S2 Pro supports 80+ languages. Tier 1 languages (highest quality) include Japanese, English, and Chinese. Tier 2 languages include Korean, Spanish, Portuguese, Arabic, Russian, French, and German. Many additional languages are supported including Swedish, Italian, Turkish, Dutch, Hindi, Thai, Vietnamese, and more.

What is the license for S2 Pro?

S2 Pro is licensed under the Fish Audio Research License. Research and non-commercial use is permitted free of charge. Commercial use requires a separate license from Fish Audio — contact business@fish.audio for details.

Fish Audio S2

Самый выразительный
голосовой ИИ в истории,
теперь с открытым кодом.

Генерируйте невероятно реалистичную речь

Попробуйте Fish Audio S2 сейчас

Что отличает S2

Создан с нуля для выразительности, скорости и открытости.

Сверхнизкая задержка

Время отклика менее 150мс обеспечивает разговорный ИИ в реальном времени, живой дубляж и интерактивные голосовые приложения. Производственная производительность без компромиссов в качестве.

<150ms

Открытое управление и мультиспикер

Управляйте эмоциями, паралингвистикой и многим другим с помощью естественных текстовых инструкций. Добавляйте смех, шёпот, вздохи и любые выразительные элементы. Бесшовные мультиспикерные диалоги — естественное переключение между говорящими в рамках одной генерации.

<|speaker:1|> [giggles]

Полностью открытый исходный код

Код инференса и веса модели полностью открыты. Запускайте S2 на своей инфраструктуре, дообучайте на своих данных и интегрируйте без привязки к поставщику. Создан для прозрачности и инноваций, движимых сообществом.

Built with SGLang

Создавайте с API Fish Audio S2

Генерируйте реалистичную речь на более чем 80 языках с управлением эмоциями, направлением и мультиспикером.

from fishaudio import FishAudio
from fishaudio.utils import save

# Initialize with your API key
client = FishAudio(api_key="your_api_key_here")

# Generate speech
audio = client.tts.convert(text="Fish Audio S2 is the best voice AI model.", model="s2-pro")
save(audio, "welcome.mp3")

Часто задаваемые вопросы

Fish Audio S2 Pro — это ведущая модель синтеза речи с тонким встроенным управлением просодией и эмоциями. Обученная на более чем 10 миллионах часов аудиоданных на 80+ языках, система сочетает выравнивание обучением с подкреплением и архитектуру двойной авторегрессии (Dual-AR) — Slow AR с 4 миллиардами параметров для семантического прогнозирования и Fast AR с 400 миллионами параметров для акустических деталей. Релиз включает веса модели, код для дообучения и потоковый движок инференса на основе SGLang.

S2 Pro обеспечивает локализованное управление генерацией речи путём встраивания инструкций на естественном языке непосредственно в текст с использованием синтаксиса [tag]. Вместо фиксированного набора предопределённых тегов S2 Pro принимает произвольные текстовые описания — такие как [whisper in small voice], [professional broadcast tone] или [pitch up] — обеспечивая открытое управление выразительностью на уровне слова. Поддерживается более 15 000 уникальных тегов, включая [pause], [emphasis], [laughing], [excited], [whisper], [singing] и многие другие.

На одном GPU NVIDIA H200 S2 Pro достигает коэффициента реального времени (RTF) 0,195, времени до первого аудио ~100 мс и пропускной способности более 3000 акустических токенов в секунду при сохранении RTF ниже 0,5. Движок инференса на основе SGLang наследует все оптимизации обслуживания, нативные для LLM — включая непрерывную пакетную обработку, постраничный KV-кэш, воспроизведение графов CUDA и кэширование префиксов на основе RadixAttention.

S2 Pro поддерживает более 80 языков. Языки первого уровня (наивысшее качество) включают японский, английский и китайский. Языки второго уровня включают корейский, испанский, португальский, арабский, русский, французский и немецкий. Также поддерживаются шведский, итальянский, турецкий, нидерландский, хинди, тайский, вьетнамский и другие.

S2 Pro лицензирован под Fish Audio Research License. Исследовательское и некоммерческое использование разрешено бесплатно. Для коммерческого использования требуется отдельная лицензия от Fish Audio — свяжитесь с business@fish.audio для получения подробной информации.

Fish Audio S2

Генерируйте невероятно реалистичную речь

Что отличает S2

Сверхнизкая задержка

Открытое управление и мультиспикер

Полностью открытый исходный код

Создавайте с API Fish Audio S2

Часто задаваемые вопросы

Что такое Fish Audio S2 Pro?

Как работает тонкое встроенное управление?

Какова потоковая производительность S2 Pro?

Сколько языков поддерживает S2 Pro?

Какая лицензия у S2 Pro?