Предложение на ограниченное время- 50% СКИДКА НА ГОДВоспользоваться
20 нояб. 2025 г.Исследования

Запуск Fish Audio S1: Передовая базовая аудиомодель для синтеза речи (Text-to-Speech)

Запуск Fish Audio S1: Передовая базовая аудиомодель для синтеза речи (Text-to-Speech)

Основные выводы

  • Мы запускаем Fish Audio S1 — передовую базовую аудиомодель для синтеза речи (text-to-speech).
  • Fish Audio S1 обучена на более чем 2 миллионах часов аудио с использованием онлайн-RLHF (GRPO).
  • Fish Audio S1 достигает 0.8% WER и 0.4% CER в тесте Seed TTS Eval.
  • S1 поддерживает маркеры эмоций, тона и спецэффектов в открытом домене.

Попробуйте S1 прямо сейчас

Попробуйте модель бесплатно в Fish Audio: https://fish.audio/app/text-to-speech/

Страница модели на Hugging Face: https://huggingface.co/fishaudio/openaudio-s1-mini

Fish Audio S1

S1 представлена в двух вариантах:

  • S1 (4B) — полнофункциональная флагманская модель, доступная в Fish Audio Playground
  • S1-mini (0.5B) — дистиллированная версия для сред с ограниченными ресурсами, доступная на Hugging Face

Обе модели обучены с использованием онлайн-RLHF (GRPO) и собственных моделей вознаграждения.

Передовое качество голоса

OpenAudio S1 обучена на более чем 2 миллионах часов аудио, сочетая масштабные пары текст-аудио с богатой супервизией. Совместно моделируя семантическую и акустическую информацию в одной модели, S1 избегает потери информации, характерной для конвейеров «только с семантикой», и уменьшает количество артефактов и ошибок в словах.

В тесте Seed TTS Eval (с транскрипцией на базе GPT-4o и метриками диктора на базе pyannote) S1 достигает:

  • WER: 0.008
  • CER: 0.004

S1-mini идет следом с показателями:

  • WER: 0.011
  • CER: 0.005

OpenAudio S1 также занимает лидирующую позицию по шкале ELO на HuggingFace TTS-Arena-V2, занимая первое место в субъективной человеческой оценке естественности, разборчивости и сходства.

Управление на уровне актера озвучивания

Fish Audio S1 обеспечивает детальный контроль над эмоциями и манерой подачи. Мы обучили собственную модель преобразования речи в текст (скоро будет выпущена) для создания описаний аудио с указанием эмоций, тона, тегов диктора и событий, а затем использовали её для аннотирования более 100 000 часов аудио для обучения следованию инструкциям.

Вы можете управлять S1 с помощью маркеров эмоций, таких как (angry), (sad), (in a hurry), (chuckling) и других. Полный список рекомендуемых тегов эмоций можно найти здесь: https://docs.fish.audio/developer-guide/core-features/emotions

Глобальные многоязычные голоса

OpenAudio S1 создана для охвата всего мира. Она поддерживает широкий спектр языков, включая:

Английский, китайский, японский, немецкий, французский, испанский, корейский, арабский, русский, голландский, итальянский, польский, португальский.

Вы можете смешивать языки в одном запросе, и модель естественным образом адаптируется к сценарию и контексту.

Архитектура, скорость и стоимость

Под капотом OpenAudio S1:

  • Использует архитектуру Qwen3 в качестве мультимодальной основы
  • Применяет собственный аудиокодек, аналогичный по духу Descript Audio Codec, обученный с нуля
  • Использует онлайн-RLHF с GRPO для оптимизации под предпочтения человека

Благодаря torch compile и оптимизированному выводу, S1 работает с коэффициентом реального времени примерно 1:7 на NVIDIA RTX 4090, что делает её практичной для интерактивных приложений.

Что касается стоимости, S1 разработана так, чтобы быть по-настоящему доступной:

  • Около $15 за миллион байт, что составляет примерно $0.8 за час аудио

Это делает высококачественный TTS жизнеспособным даже для больших объемов работы или проектов с ограниченным бюджетом.

  • Zero-shot и few-shot клонирование голоса на основе коротких образцов
  • Многоязычный и кросс-языковой TTS
  • Отсутствие зависимости от фонем, обработка любых сценариев напрямую из текста

Начало работы с OpenAudio S1

Вы можете попробовать OpenAudio S1 уже сегодня:

Zhizhuo Zhou

Zhizhuo ZhouX

Z is a co-founder of Fish Audio and gigachad AI researcher at Stanford focusing on diffusion and 3D generative models. Find him as a barista bartender at exclusive popups, and see his work at zhiz.dev.

Читать больше от Zhizhuo Zhou

Создавайте голоса, которые звучат естественно

Начните создавать аудио высочайшего качества уже сегодня.

Уже есть аккаунт? Войти