Предложение на ограниченное время- 50% СКИДКА НА ГОДВоспользоваться
20 нояб. 2025 г.Исследование

Представляем Fish-Speech: мультиязычный TTS нового поколения

Представляем Fish-Speech: мультиязычный TTS нового поколения

Основные моменты

  • Мы представляем Fish-Speech — современную (SoTA) авторегрессионную мультиязычную систему TTS на базе архитектуры Transformer
  • Мы используем инновационную архитектуру Dual-AR для стабильной и естественной просодии
  • Вокодер Firefly-GAN с почти 100%-ным использованием кодовой книги для выразительной речи
  • Обучена на 720 000 часах данных и создана для ИИ-агентов реального времени

Техническая статья: https://arxiv.org/abs/2411.01156


Fish-Speech — это новая мультиязычная система синтеза речи (TTS), которая переносит возможности рассуждения LLM непосредственно в процесс обработки речи. Вместо зависимости от ненадежных правил преобразования графем в фонемы, она использует языковые модели для нативного понимания текста. Это значительно улучшает работу с полифоническими выражениями, смешанным языковым контентом и контекстно-зависимыми входными данными.

Архитектура Dual-AR

Система использует Slow Transformer для высокоуровневой лингвистической структуры и Fast Transformer для акустических деталей. Этот двухэтапный процесс стабилизирует генерацию, улучшает использование кодовой книги и устраняет задержку диффузии. Благодаря KV-кэшированию и другим оптимизациям Fish-Speech может обеспечивать задержку первого пакета около 150 мс, что делает систему идеальной для интерактивных агентов.

Вокодер Firefly-GAN

На аудиоуровне вокодер Firefly-GAN сочетает в себе depthwise/dilated свертки с групповым скалярным векторным квантованием. Такая конструкция обеспечивает почти полное использование кодовой книги и эффективно справляется с эмоциональным и мультиязычным синтезом, сохраняя при этом чрезвычайно высокое качество звука.

Обучение в масштабе

Fish-Speech была обучена на 720 000 часах мультиязычного аудио из основных языковых семей. Сбалансированный набор данных помогает модели поддерживать стабильное качество в разных языках, акцентах и сценариях со смешанной речью.

Качество клонирования голоса

Система достигает ведущих показателей в частоте ошибок в словах (WER), сходстве дикторов и MOS — опережая сильные базовые модели и даже превосходя эталонные транскрипции по показателю WER. Она с высокой точностью сохраняет тембр, просодию и индивидуальность голоса.

Попробуйте сами

Fish-Speech имеет открытый исходный код:

Shijia Liao

Shijia LiaoX

Lengyue is the founder of Fish Audio and a cracked researcher pushing breakthroughs in Voice AI. Follow his work at @lengyuematrix.

Читать больше от Shijia Liao

Создавайте голоса, которые звучат естественно

Начните создавать аудио высочайшего качества уже сегодня.

Уже есть аккаунт? Войти