AI translatedРусский English

20 нояб. 2025 г.Исследования

Запуск Fish Audio S1: Передовая базовая аудиомодель для синтеза речи (Text-to-Speech)

Zhizhuo Zhou, ML Researcher

Запуск Fish Audio S1: Передовая базовая аудиомодель для синтеза речи (Text-to-Speech)

Основные выводы

Мы запускаем Fish Audio S1 — передовую базовую аудиомодель для синтеза речи (text-to-speech).
Fish Audio S1 обучена на более чем 2 миллионах часов аудио с использованием онлайн-RLHF (GRPO).
Fish Audio S1 достигает 0.8% WER и 0.4% CER в тесте Seed TTS Eval.
S1 поддерживает маркеры эмоций, тона и спецэффектов в открытом домене.

Попробуйте S1 прямо сейчас

Попробуйте модель бесплатно в Fish Audio: https://fish.audio/app/text-to-speech/

Страница модели на Hugging Face: https://huggingface.co/fishaudio/openaudio-s1-mini

Fish Audio S1

S1 представлена в двух вариантах:

S1 (4B) — полнофункциональная флагманская модель, доступная в Fish Audio Playground
S1-mini (0.5B) — дистиллированная версия для сред с ограниченными ресурсами, доступная на Hugging Face

Обе модели обучены с использованием онлайн-RLHF (GRPO) и собственных моделей вознаграждения.

Передовое качество голоса

OpenAudio S1 обучена на более чем 2 миллионах часов аудио, сочетая масштабные пары текст-аудио с богатой супервизией. Совместно моделируя семантическую и акустическую информацию в одной модели, S1 избегает потери информации, характерной для конвейеров «только с семантикой», и уменьшает количество артефактов и ошибок в словах.

В тесте Seed TTS Eval (с транскрипцией на базе GPT-4o и метриками диктора на базе pyannote) S1 достигает:

WER: 0.008
CER: 0.004

S1-mini идет следом с показателями:

WER: 0.011
CER: 0.005

OpenAudio S1 также занимает лидирующую позицию по шкале ELO на HuggingFace TTS-Arena-V2, занимая первое место в субъективной человеческой оценке естественности, разборчивости и сходства.

Управление на уровне актера озвучивания

Fish Audio S1 обеспечивает детальный контроль над эмоциями и манерой подачи. Мы обучили собственную модель преобразования речи в текст (скоро будет выпущена) для создания описаний аудио с указанием эмоций, тона, тегов диктора и событий, а затем использовали её для аннотирования более 100 000 часов аудио для обучения следованию инструкциям.

Вы можете управлять S1 с помощью маркеров эмоций, таких как (angry), (sad), (in a hurry), (chuckling) и других. Полный список рекомендуемых тегов эмоций можно найти здесь: https://docs.fish.audio/developer-guide/core-features/emotions

Глобальные многоязычные голоса

OpenAudio S1 создана для охвата всего мира. Она поддерживает широкий спектр языков, включая:

Английский, китайский, японский, немецкий, французский, испанский, корейский, арабский, русский, голландский, итальянский, польский, португальский.

Вы можете смешивать языки в одном запросе, и модель естественным образом адаптируется к сценарию и контексту.

Архитектура, скорость и стоимость

Под капотом OpenAudio S1:

Использует архитектуру Qwen3 в качестве мультимодальной основы
Применяет собственный аудиокодек, аналогичный по духу Descript Audio Codec, обученный с нуля
Использует онлайн-RLHF с GRPO для оптимизации под предпочтения человека

Благодаря torch compile и оптимизированному выводу, S1 работает с коэффициентом реального времени примерно 1:7 на NVIDIA RTX 4090, что делает её практичной для интерактивных приложений.

Что касается стоимости, S1 разработана так, чтобы быть по-настоящему доступной:

Около $15 за миллион байт, что составляет примерно $0.8 за час аудио

Это делает высококачественный TTS жизнеспособным даже для больших объемов работы или проектов с ограниченным бюджетом.

Zero-shot и few-shot клонирование голоса на основе коротких образцов
Многоязычный и кросс-языковой TTS
Отсутствие зависимости от фонем, обработка любых сценариев напрямую из текста

Начало работы с OpenAudio S1

Вы можете попробовать OpenAudio S1 уже сегодня:

Fish Audio Playground (S1): https://fish.audio
S1-mini на Hugging Face: https://huggingface.co/fishaudio/openaudio-s1-mini

Zhizhuo Zhou

Z is a co-founder of Fish Audio and gigachad AI researcher at Stanford focusing on diffusion and 3D generative models. Find him as a barista bartender at exclusive popups, and see his work at zhiz.dev.

Читать больше от Zhizhuo Zhou

Создавайте голоса, которые звучат естественно

Начните создавать аудио высочайшего качества уже сегодня.

Зарегистрироваться бесплатно

Уже есть аккаунт? Войти

Last Updates

Fish Audio STT — Транскрибируйте ваш подкаст с Fish Audio

27 мар. 2026 г.транскрибация подкастов

Инструмент для транскрибации подкастов — как транскрибировать подкаст с помощью Fish Audio

Sabrina ShuSupport & Marketing Specialist

19 мар. 2026 г.Руководство

Лучший AI TTS для творческих команд! Обзор командного плана Fish Audio

Sabrina ShuSupport & Marketing Specialist

«Royalty-Free ИИ-фоновая музыка для рекламы, игр и подкастов» футуристическим текстом

15 мар. 2026 г.Руководство

Роялти-фри ИИ-фоновая музыка для рекламы, игр и подкастов

Kyle CuiAI Systems Engineer

Запуск Fish Audio S1: Передовая базовая аудиомодель для синтеза речи (Text-to-Speech)

Основные выводы

Попробуйте S1 прямо сейчас

Fish Audio S1

Передовое качество голоса

Управление на уровне актера озвучивания

Глобальные многоязычные голоса

Архитектура, скорость и стоимость

Начало работы с OpenAudio S1

Создавайте голоса, которые звучат естественно

Last Updates

Инструмент для транскрибации подкастов — как транскрибировать подкаст с помощью Fish Audio

Лучший AI TTS для творческих команд! Обзор командного плана Fish Audio

Роялти-фри ИИ-фоновая музыка для рекламы, игр и подкастов

Recommended

Инструмент для транскрибации подкастов — как транскрибировать подкаст с помощью Fish Audio

Лучший AI TTS для творческих команд! Обзор командного плана Fish Audio

Fish Audio S2! Точный контроль ИИ-голоса на уровне отдельных слов

Fish Audio открывает исходный код S2: детальный контроль и потоковая передача в продакшене

Как использовать SAM Audio для разделения аудио: пошаговое руководство