Представляем Fish-Speech: мультиязычный TTS нового поколения

Основные моменты
- Мы представляем Fish-Speech — современную (SoTA) авторегрессионную мультиязычную систему TTS на базе архитектуры Transformer
- Мы используем инновационную архитектуру Dual-AR для стабильной и естественной просодии
- Вокодер Firefly-GAN с почти 100%-ным использованием кодовой книги для выразительной речи
- Обучена на 720 000 часах данных и создана для ИИ-агентов реального времени
Техническая статья: https://arxiv.org/abs/2411.01156
Fish-Speech — это новая мультиязычная система синтеза речи (TTS), которая переносит возможности рассуждения LLM непосредственно в процесс обработки речи. Вместо зависимости от ненадежных правил преобразования графем в фонемы, она использует языковые модели для нативного понимания текста. Это значительно улучшает работу с полифоническими выражениями, смешанным языковым контентом и контекстно-зависимыми входными данными.
Архитектура Dual-AR
Система использует Slow Transformer для высокоуровневой лингвистической структуры и Fast Transformer для акустических деталей. Этот двухэтапный процесс стабилизирует генерацию, улучшает использование кодовой книги и устраняет задержку диффузии. Благодаря KV-кэшированию и другим оптимизациям Fish-Speech может обеспечивать задержку первого пакета около 150 мс, что делает систему идеальной для интерактивных агентов.
Вокодер Firefly-GAN
На аудиоуровне вокодер Firefly-GAN сочетает в себе depthwise/dilated свертки с групповым скалярным векторным квантованием. Такая конструкция обеспечивает почти полное использование кодовой книги и эффективно справляется с эмоциональным и мультиязычным синтезом, сохраняя при этом чрезвычайно высокое качество звука.
Обучение в масштабе
Fish-Speech была обучена на 720 000 часах мультиязычного аудио из основных языковых семей. Сбалансированный набор данных помогает модели поддерживать стабильное качество в разных языках, акцентах и сценариях со смешанной речью.
Качество клонирования голоса
Система достигает ведущих показателей в частоте ошибок в словах (WER), сходстве дикторов и MOS — опережая сильные базовые модели и даже превосходя эталонные транскрипции по показателю WER. Она с высокой точностью сохраняет тембр, просодию и индивидуальность голоса.
Попробуйте сами
Fish-Speech имеет открытый исходный код:
- GitHub: https://github.com/fishaudio/fish-speech
- Демо: https://fish.audio

Lengyue is the founder of Fish Audio and a cracked researcher pushing breakthroughs in Voice AI. Follow his work at @lengyuematrix.
Читать больше от Shijia Liao

