Запуск Fish Audio S1: Передовая базовая аудиомодель для синтеза речи (Text-to-Speech)

Основные выводы
- Мы запускаем Fish Audio S1 — передовую базовую аудиомодель для синтеза речи (text-to-speech).
- Fish Audio S1 обучена на более чем 2 миллионах часов аудио с использованием онлайн-RLHF (GRPO).
- Fish Audio S1 достигает 0.8% WER и 0.4% CER в тесте Seed TTS Eval.
- S1 поддерживает маркеры эмоций, тона и спецэффектов в открытом домене.
Попробуйте S1 прямо сейчас
Попробуйте модель бесплатно в Fish Audio: https://fish.audio/app/text-to-speech/
Страница модели на Hugging Face: https://huggingface.co/fishaudio/openaudio-s1-mini
Fish Audio S1
S1 представлена в двух вариантах:
- S1 (4B) — полнофункциональная флагманская модель, доступная в Fish Audio Playground
- S1-mini (0.5B) — дистиллированная версия для сред с ограниченными ресурсами, доступная на Hugging Face
Обе модели обучены с использованием онлайн-RLHF (GRPO) и собственных моделей вознаграждения.
Передовое качество голоса
OpenAudio S1 обучена на более чем 2 миллионах часов аудио, сочетая масштабные пары текст-аудио с богатой супервизией. Совместно моделируя семантическую и акустическую информацию в одной модели, S1 избегает потери информации, характерной для конвейеров «только с семантикой», и уменьшает количество артефактов и ошибок в словах.
В тесте Seed TTS Eval (с транскрипцией на базе GPT-4o и метриками диктора на базе pyannote) S1 достигает:
- WER: 0.008
- CER: 0.004
S1-mini идет следом с показателями:
- WER: 0.011
- CER: 0.005
OpenAudio S1 также занимает лидирующую позицию по шкале ELO на HuggingFace TTS-Arena-V2, занимая первое место в субъективной человеческой оценке естественности, разборчивости и сходства.
Управление на уровне актера озвучивания
Fish Audio S1 обеспечивает детальный контроль над эмоциями и манерой подачи. Мы обучили собственную модель преобразования речи в текст (скоро будет выпущена) для создания описаний аудио с указанием эмоций, тона, тегов диктора и событий, а затем использовали её для аннотирования более 100 000 часов аудио для обучения следованию инструкциям.
Вы можете управлять S1 с помощью маркеров эмоций, таких как (angry), (sad), (in a hurry), (chuckling) и других. Полный список рекомендуемых тегов эмоций можно найти здесь: https://docs.fish.audio/developer-guide/core-features/emotions
Глобальные многоязычные голоса
OpenAudio S1 создана для охвата всего мира. Она поддерживает широкий спектр языков, включая:
Английский, китайский, японский, немецкий, французский, испанский, корейский, арабский, русский, голландский, итальянский, польский, португальский.
Вы можете смешивать языки в одном запросе, и модель естественным образом адаптируется к сценарию и контексту.
Архитектура, скорость и стоимость
Под капотом OpenAudio S1:
- Использует архитектуру Qwen3 в качестве мультимодальной основы
- Применяет собственный аудиокодек, аналогичный по духу Descript Audio Codec, обученный с нуля
- Использует онлайн-RLHF с GRPO для оптимизации под предпочтения человека
Благодаря torch compile и оптимизированному выводу, S1 работает с коэффициентом реального времени примерно 1:7 на NVIDIA RTX 4090, что делает её практичной для интерактивных приложений.
Что касается стоимости, S1 разработана так, чтобы быть по-настоящему доступной:
- Около $15 за миллион байт, что составляет примерно $0.8 за час аудио
Это делает высококачественный TTS жизнеспособным даже для больших объемов работы или проектов с ограниченным бюджетом.
- Zero-shot и few-shot клонирование голоса на основе коротких образцов
- Многоязычный и кросс-языковой TTS
- Отсутствие зависимости от фонем, обработка любых сценариев напрямую из текста
Начало работы с OpenAudio S1
Вы можете попробовать OpenAudio S1 уже сегодня:
- Fish Audio Playground (S1): https://fish.audio
- S1-mini на Hugging Face: https://huggingface.co/fishaudio/openaudio-s1-mini

Z is a co-founder of Fish Audio and gigachad AI researcher at Stanford focusing on diffusion and 3D generative models. Find him as a barista bartender at exclusive popups, and see his work at zhiz.dev.
Читать больше от Zhizhuo Zhou
