20 нояб. 2025 г.Исследования

Диффузионные модели аудио

Shijia Liao, Chief Scientist

Основные тезисы

Мы запускаем Fish Diffusion — фреймворк с открытым исходным кодом для генерации аудио
Fish Diffusion полезен для задач TTS, SVC и SVS

GitHub: https://github.com/fishaudio/fish-diffusion

Основной принцип

В своей основе репозиторий построен на принципе модульности:

Акустические модели должны быть заменяемыми (диффузионные, в стиле Grad-TTS, на базе GAN).
Сигналы кондиционирования (текст, диктор, высота тона, энергия) должны быть модульными.

Единый стек моделирования

Все архитектуры в репозитории следуют схожим паттернам:

Они принимают структурированные пакеты данных (batches) с такими ключами, как contents, speaker, pitches, energy и lengths.
Они строят маски на основе длины последовательностей, чтобы избежать вычисления потерь на заполнении (padding).
Они генерируют либо спектрограммы (для диффузионных моделей), либо сырые волновые формы (для GAN-моделей).

Диффузионные модели (такие как пути DiffSinger/GradTTS) сосредоточены на генерации мел-спектрограмм, обусловленных объединенным представлением текста и просодии. Модели в стиле HiFiSinger работают напрямую с волновыми формами, полагаясь на дискриминаторы для обеспечения реализма. Несмотря на эти различия, они объединены одними и теми же абстракциями конфигурации и обучения.

Модульное кондиционирование и реестры

Fish Diffusion рассматривает энкодеры и вокодеры как подключаемые компоненты. Текстовые энкодеры, энкодеры диктора, высоты тона и энергии создаются через реестры, поэтому переход от одного экстрактора признаков или вокодера к другому — это в основном лишь изменение конфигурации.

Это делает репозиторий хорошо подходящим для:

Мультидикторских систем и задач клонирования голоса
Задач с упором на просодию (пение, эмоциональная речь)
Быстрых экспериментов с различными стеками фронтенд-признаков

Тот же принцип применим к диффузионным моделям, планировщикам (schedulers) и оптимизаторам, которые также создаются на основе построителей из реестра.

Попробуйте нашу новейшую передовую модель аудио

Вы можете попробовать OpenAudio S1 уже сегодня:

Fish Audio Playground (S1): https://fish.audio
S1-mini на Hugging Face: https://huggingface.co/fishaudio/openaudio-s1-mini

Shijia Liao

Founder & Chief-Scientist of Fish Audio.

Читать больше от Shijia Liao

Создавайте голоса, которые звучат естественно

Начните создавать аудио высочайшего качества уже сегодня.

Зарегистрироваться бесплатно

Уже есть аккаунт? Войти

Last Updates

Логотип Fish Audio на фиолетово-красном градиентном фоне с разноцветным конфетти, анонсирующий посевной раунд финансирования в размере 52 млн долларов и выражающий благодарность более чем 8 млн разработчиков.

27 июл. 2026 г.Компания

5 моделей, 22 человека, 1 год

Rissa CaoCEO

Как мы сделали S2.1 Pro бесплатным — пересборка стека инференса с нуля

23 июл. 2026 г.Исследования

Как мы сделали наш API для синтеза речи бесплатным: Инженерные решения по инференсу S2.1 Pro

Shijia LiaoChief Scientist

20 июл. 2026 г.В фокусе: Создатели

Alex Lee: Using AI Voice to Build More Human Characters

Fish Audio CommunityFish Audio Community Team

Диффузионные модели аудио

Основные тезисы

Основной принцип

Единый стек моделирования

Модульное кондиционирование и реестры

Попробуйте нашу новейшую передовую модель аудио

Создавайте голоса, которые звучат естественно

Last Updates

5 моделей, 22 человека, 1 год

Как мы сделали наш API для синтеза речи бесплатным: Инженерные решения по инференсу S2.1 Pro

Alex Lee: Using AI Voice to Build More Human Characters

Recommended

5 моделей, 22 человека, 1 год

Как мы сделали наш API для синтеза речи бесплатным: Инженерные решения по инференсу S2.1 Pro

Fish Audio S2.1 Pro: бесплатный API Text-to-Speech для разработчиков

Профессиональное клонирование голоса: Верифицированный клон вашего голоса студийного качества

AI Voice Design: создание уникального голоса по одному текстовому описанию

Мы провели слепое тестирование нашей TTS против всех основных конкурентов. Вот результаты.