Предложение на ограниченное время- 50% СКИДКА НА ГОДВоспользоваться
9 мар. 2026 г.Исследования

Fish Audio открывает исходный код S2: тонкое управление сочетается с промышленным стримингом

Fish Audio открывает исходный код S2: тонкое управление сочетается с промышленным стримингом

S2 Pro доступен в Fish Audio App, а его исходный код — в GitHub-репозитории проекта и на HuggingFace.

Fish Audio открыла исходный код S2 — модели преобразования текста в речь (TTS), которая поддерживает тонкое внутристрочное управление просодией и эмоциями с помощью тегов на естественном языке, таких как [laugh], [whispers] и [super happy]. Обученная на более чем 10 миллионах часов аудио на примерно 50 языках, система сочетает выравнивание с помощью обучения с подкреплением (RL) с двойной авторегрессионной архитектурой. Релиз включает веса модели, код для тонкой настройки и движок для потокового вывода на базе SGLang.

Тонкое внутристрочное управление через естественный язык

S2 обеспечивает внутристрочное управление генерацией речи путем встраивания инструкций на естественном языке непосредственно в определенные позиции слов или фраз внутри текста. Вместо того чтобы полагаться на фиксированный набор предопределенных тегов, S2 принимает текстовые описания в свободной форме — например, [whisper in small voice], [professional broadcast tone] или [pitch up], — что позволяет осуществлять неограниченное управление экспрессией на уровне слов.

В тесте Audio Turing Test модель S2 достигает апостериорного среднего значения 0,515 с переписыванием инструкций по сравнению с 0,417 у Seed-TTS и 0,387 у MiniMax-Speech. В EmergentTTS-Eval она достигает общего показателя побед 81,88% против базовой модели gpt-4o-mini-tts — самого высокого среди всех оцениваемых моделей, включая закрытые системы от Google и OpenAI.

Пример входного формата S2 Пример формата ввода S2, демонстрирующий диалог нескольких дикторов с внутристрочными тегами на естественном языке в свободной форме для тонкого управления.

Единая методика: подготовка данных и RL-вознаграждения от одних и тех же моделей

Ключевым архитектурным решением в S2 является то, что одни и те же модели, используемые для фильтрации и аннотирования обучающих данных, напрямую повторно используются в качестве моделей вознаграждения во время обучения с подкреплением:

  • Модель качества речи оценивает аудио по таким параметрам, как SNR (отношение сигнал/шум), консистентность диктора и разборчивость во время фильтрации данных, а затем служит в качестве награды за акустические предпочтения во время RL.
  • Модель ASR с расширенной транскрипцией (дообученная на базе Qwen3-Omni-30B-A3B) генерирует транскрипты, дополненные описаниями с внутристрочными паралингвистическими аннотациями во время подготовки данных, а затем обеспечивает вознаграждение за разборчивость и следование инструкциям, повторно транскрибируя сгенерированное аудио и сравнивая его с исходным промптом.

Такая двойная архитектура устраняет несоответствие распределения между данными для предварительного обучения и целями постобучения — проблему, которая остается нерешенной в других TTS-системах, где модели вознаграждения обучаются отдельно от конвейеров подготовки данных.

Внутри модели: архитектура Dual-AR

S2 построена на базе трансформера (decoder-only) в сочетании с аудиокодеком на основе RVQ (10 кодовых книг, частота кадров ~21 Гц). Развертывание всех кодовых книг вдоль временной оси привело бы к 10-кратному взрывному росту длины последовательности. S2 решает эту проблему с помощью двойной авторегрессионной архитектуры (Dual-AR):

  • Slow AR (медленная) работает вдоль временной оси и предсказывает основную семантическую кодовую книгу.
  • Fast AR (быстрая) генерирует остальные 9 остаточных кодовых книг на каждом временном шаге, восстанавливая тонкие акустические детали.

Этот асимметричный дизайн — 4 млрд параметров вдоль временной оси и 400 млн параметров вдоль оси глубины — обеспечивает эффективность инференса при сохранении высокой точности звука.

Выравнивание методом обучения с подкреплением для речи

Для постобучения S2 использует метод Group Relative Policy Optimization (GRPO), выбранный для того, чтобы избежать накладных расходов памяти, характерных для моделей ценности типа PPO в контексте длинных аудиофрагментов. Сигнал вознаграждения объединяет несколько измерений, включая:

  • Семантическую точность и соблюдение инструкций
  • Оценку акустических предпочтений
  • Сходство тембра

Результаты бенчмарков

S2 достигает лидирующих результатов в нескольких публичных бенчмарках:

БенчмаркFish Audio S2
Seed-TTS Eval — WER (Китайский)0.54% (лучший результат)
Seed-TTS Eval — WER (Английский)0.99% (лучший результат)
Audio Turing Test (с инструкцией)0.515 (апостериорное среднее)
EmergentTTS-Eval — Win Rate81.88% (самый высокий результат)
Fish Instruction Benchmark — TAR93.3%
Fish Instruction Benchmark — Качество4.51 / 5.0
Multilingual (MiniMax Testset) — Лучший WER11 из 24 языков
Multilingual (MiniMax Testset) — Лучшее сходство (SIM)17 из 24 языков

В Seed-TTS Eval S2 демонстрирует самый низкий уровень WER среди всех оцениваемых моделей, включая закрытые системы: Qwen3-TTS (0.77/1.24), MiniMax Speech-02 (0.99/1.90), Seed-TTS (1.12/2.25). В тесте Audio Turing Test результат 0.515 превосходит Seed-TTS (0.417) на 24% и MiniMax-Speech (0.387) на 33%. В EmergentTTS-Eval S2 показывает особенно сильные результаты в паралингвистике (доля побед 91,61%), вопросах (84,41%) и синтаксической сложности (83,39%).

Для более широкого ознакомления с тем, как различные решения оцениваются по уровню контроля эмоций, задержке и поддержке языков, вы можете обратиться к этому независимому сравнению инструментов для работы с ИИ-голосом и аудио.

Промышленный стриминг через SGLang

Поскольку архитектура Dual-AR в S2 структурно изоморфна стандартным авторегрессионным LLM, она может напрямую наследовать все нативные оптимизации обслуживания LLM из SGLang с минимальными изменениями — включая непрерывный батчинг (continuous batching), постраничный KV-кэш, CUDA graph replay и кэширование префиксов на базе RadixAttention.

Для клонирования голоса S2 помещает токены эталонного аудио в системный промпт. RadixAttention в SGLang автоматически кэширует эти состояния KV, достигая среднего показателя попадания в кэш префиксов 86,4% (более 90% на пике) при повторном использовании того же голоса в разных запросах, что делает накладные расходы на предварительную обработку эталонного аудио практически незначительными.

На одном GPU NVIDIA H200:

  • Коэффициент реального времени (RTF): 0.195
  • Время до начала воспроизведения (TTFA): около 100 мс
  • Пропускная способность: 3 000+ акустических токенов/с при сохранении RTF ниже 0.5

Для получения пошагового руководства по запуску S2 на облачных GPU H100/H200 см. руководство Spheron по развертыванию open-source TTS на облачных GPU.

Почему этот релиз важен

S2 выпускается не просто как контрольная точка модели, а как полноценная система: веса модели, код для тонкой настройки и готовый к промышленному использованию стек для инференса.

Выделяются два проектных решения. Во-первых, унифицированный конвейер данных и вознаграждений устраняет структурную проблему — несоответствие распределения между предварительным обучением и RL, — которую другие TTS-системы не решали на архитектурном уровне. Во-вторых, структурный изоморфизм между архитектурой Dual-AR и стандартными LLM означает, что S2 может использовать всю экосистему оптимизаций обслуживания LLM, не требуя кастомной инфраструктуры для вывода.

S2 доступен через GitHub-репозиторий проекта, SGLang-Omni, HuggingFace и в виде интерактивного демо на fish.audio.

Shijia Liao

Shijia LiaoX

Founder & Chief-Scientist of Fish Audio.

Читать больше от Shijia Liao

Создавайте голоса, которые звучат естественно

Начните создавать аудио высочайшего качества уже сегодня.

Уже есть аккаунт? Войти