20 нояб. 2025 г.Исследование

Представляем Fish-Speech: мультиязычный TTS нового поколения

Основные моменты

Мы представляем Fish-Speech — современную (SoTA) авторегрессионную мультиязычную систему TTS на базе архитектуры Transformer
Мы используем инновационную архитектуру Dual-AR для стабильной и естественной просодии
Вокодер Firefly-GAN с почти 100%-ным использованием кодовой книги для выразительной речи
Обучена на 720 000 часах данных и создана для ИИ-агентов реального времени

Техническая статья: https://arxiv.org/abs/2411.01156

Fish-Speech — это новая мультиязычная система синтеза речи (TTS), которая переносит возможности рассуждения LLM непосредственно в процесс обработки речи. Вместо зависимости от ненадежных правил преобразования графем в фонемы, она использует языковые модели для нативного понимания текста. Это значительно улучшает работу с полифоническими выражениями, смешанным языковым контентом и контекстно-зависимыми входными данными.

Архитектура Dual-AR

Система использует Slow Transformer для высокоуровневой лингвистической структуры и Fast Transformer для акустических деталей. Этот двухэтапный процесс стабилизирует генерацию, улучшает использование кодовой книги и устраняет задержку диффузии. Благодаря KV-кэшированию и другим оптимизациям Fish-Speech может обеспечивать задержку первого пакета около 150 мс, что делает систему идеальной для интерактивных агентов.

Вокодер Firefly-GAN

На аудиоуровне вокодер Firefly-GAN сочетает в себе depthwise/dilated свертки с групповым скалярным векторным квантованием. Такая конструкция обеспечивает почти полное использование кодовой книги и эффективно справляется с эмоциональным и мультиязычным синтезом, сохраняя при этом чрезвычайно высокое качество звука.

Обучение в масштабе

Fish-Speech была обучена на 720 000 часах мультиязычного аудио из основных языковых семей. Сбалансированный набор данных помогает модели поддерживать стабильное качество в разных языках, акцентах и сценариях со смешанной речью.

Качество клонирования голоса

Система достигает ведущих показателей в частоте ошибок в словах (WER), сходстве дикторов и MOS — опережая сильные базовые модели и даже превосходя эталонные транскрипции по показателю WER. Она с высокой точностью сохраняет тембр, просодию и индивидуальность голоса.

Попробуйте сами

Fish-Speech имеет открытый исходный код:

GitHub: https://github.com/fishaudio/fish-speech
Демо: https://fish.audio

Shijia Liao

Lengyue is the founder of Fish Audio and a cracked researcher pushing breakthroughs in Voice AI. Follow his work at @lengyuematrix.

Читать больше от Shijia Liao

Создавайте голоса, которые звучат естественно

Начните создавать аудио высочайшего качества уже сегодня.

Зарегистрироваться бесплатно

Уже есть аккаунт? Войти

Last Updates

Fish Audio STT — Транскрибируйте ваш подкаст с Fish Audio

27 мар. 2026 г.транскрибация подкастов

Инструмент для транскрибации подкастов — как транскрибировать подкаст с помощью Fish Audio

Sabrina ShuSupport & Marketing Specialist

19 мар. 2026 г.Руководство

Лучший AI TTS для творческих команд! Обзор командного плана Fish Audio

Sabrina ShuSupport & Marketing Specialist

«Royalty-Free ИИ-фоновая музыка для рекламы, игр и подкастов» футуристическим текстом

15 мар. 2026 г.Руководство

Роялти-фри ИИ-фоновая музыка для рекламы, игр и подкастов

Kyle CuiAI Systems Engineer

Представляем Fish-Speech: мультиязычный TTS нового поколения

Основные моменты

Архитектура Dual-AR

Вокодер Firefly-GAN

Обучение в масштабе

Качество клонирования голоса

Попробуйте сами

Создавайте голоса, которые звучат естественно

Last Updates

Инструмент для транскрибации подкастов — как транскрибировать подкаст с помощью Fish Audio

Лучший AI TTS для творческих команд! Обзор командного плана Fish Audio

Роялти-фри ИИ-фоновая музыка для рекламы, игр и подкастов

Recommended

Инструмент для транскрибации подкастов — как транскрибировать подкаст с помощью Fish Audio

Лучший AI TTS для творческих команд! Обзор командного плана Fish Audio

Fish Audio S2! Точный контроль ИИ-голоса на уровне отдельных слов

Fish Audio открывает исходный код S2: детальный контроль и потоковая передача в продакшене

Как использовать SAM Audio для разделения аудио: пошаговое руководство

Запуск Fish Audio S1: Передовая базовая аудиомодель для синтеза речи (Text-to-Speech)