Предложение на ограниченное время- 50% СКИДКА НА ГОДВоспользоваться
20 нояб. 2025 г.Исследования

Диффузионные модели аудио

Диффузионные модели аудио

Основные тезисы

  • Мы запускаем Fish Diffusion — фреймворк с открытым исходным кодом для генерации аудио
  • Fish Diffusion полезен для задач TTS, SVC и SVS

GitHub: https://github.com/fishaudio/fish-diffusion

Основной принцип

В своей основе репозиторий построен на принципе модульности:

  1. Акустические модели должны быть заменяемыми (диффузионные, в стиле Grad-TTS, на базе GAN).
  2. Сигналы кондиционирования (текст, диктор, высота тона, энергия) должны быть модульными.

Единый стек моделирования

Все архитектуры в репозитории следуют схожим паттернам:

  • Они принимают структурированные пакеты данных (batches) с такими ключами, как contents, speaker, pitches, energy и lengths.
  • Они строят маски на основе длины последовательностей, чтобы избежать вычисления потерь на заполнении (padding).
  • Они генерируют либо спектрограммы (для диффузионных моделей), либо сырые волновые формы (для GAN-моделей).

Диффузионные модели (такие как пути DiffSinger/GradTTS) сосредоточены на генерации мел-спектрограмм, обусловленных объединенным представлением текста и просодии. Модели в стиле HiFiSinger работают напрямую с волновыми формами, полагаясь на дискриминаторы для обеспечения реализма. Несмотря на эти различия, они объединены одними и теми же абстракциями конфигурации и обучения.

Модульное кондиционирование и реестры

Fish Diffusion рассматривает энкодеры и вокодеры как подключаемые компоненты. Текстовые энкодеры, энкодеры диктора, высоты тона и энергии создаются через реестры, поэтому переход от одного экстрактора признаков или вокодера к другому — это в основном лишь изменение конфигурации.

Это делает репозиторий хорошо подходящим для:

  • Мультидикторских систем и задач клонирования голоса
  • Задач с упором на просодию (пение, эмоциональная речь)
  • Быстрых экспериментов с различными стеками фронтенд-признаков

Тот же принцип применим к диффузионным моделям, планировщикам (schedulers) и оптимизаторам, которые также создаются на основе построителей из реестра.

Попробуйте нашу новейшую передовую модель аудио

Вы можете попробовать OpenAudio S1 уже сегодня:

Shijia Liao

Shijia LiaoX

Founder & Chief-Scientist of Fish Audio.

Читать больше от Shijia Liao

Создавайте голоса, которые звучат естественно

Начните создавать аудио высочайшего качества уже сегодня.

Уже есть аккаунт? Войти