Диффузионные модели аудио

Основные тезисы
- Мы запускаем Fish Diffusion — фреймворк с открытым исходным кодом для генерации аудио
- Fish Diffusion полезен для задач TTS, SVC и SVS
GitHub: https://github.com/fishaudio/fish-diffusion
Основной принцип
В своей основе репозиторий построен на принципе модульности:
- Акустические модели должны быть заменяемыми (диффузионные, в стиле Grad-TTS, на базе GAN).
- Сигналы кондиционирования (текст, диктор, высота тона, энергия) должны быть модульными.
Единый стек моделирования
Все архитектуры в репозитории следуют схожим паттернам:
- Они принимают структурированные пакеты данных (batches) с такими ключами, как contents, speaker, pitches, energy и lengths.
- Они строят маски на основе длины последовательностей, чтобы избежать вычисления потерь на заполнении (padding).
- Они генерируют либо спектрограммы (для диффузионных моделей), либо сырые волновые формы (для GAN-моделей).
Диффузионные модели (такие как пути DiffSinger/GradTTS) сосредоточены на генерации мел-спектрограмм, обусловленных объединенным представлением текста и просодии. Модели в стиле HiFiSinger работают напрямую с волновыми формами, полагаясь на дискриминаторы для обеспечения реализма. Несмотря на эти различия, они объединены одними и теми же абстракциями конфигурации и обучения.
Модульное кондиционирование и реестры
Fish Diffusion рассматривает энкодеры и вокодеры как подключаемые компоненты. Текстовые энкодеры, энкодеры диктора, высоты тона и энергии создаются через реестры, поэтому переход от одного экстрактора признаков или вокодера к другому — это в основном лишь изменение конфигурации.
Это делает репозиторий хорошо подходящим для:
- Мультидикторских систем и задач клонирования голоса
- Задач с упором на просодию (пение, эмоциональная речь)
- Быстрых экспериментов с различными стеками фронтенд-признаков
Тот же принцип применим к диффузионным моделям, планировщикам (schedulers) и оптимизаторам, которые также создаются на основе построителей из реестра.
Попробуйте нашу новейшую передовую модель аудио
Вы можете попробовать OpenAudio S1 уже сегодня:
- Fish Audio Playground (S1): https://fish.audio
- S1-mini на Hugging Face: https://huggingface.co/fishaudio/openaudio-s1-mini


