Modelos de Difusión de Audio

30 nov 2024

Lengyue, AI ResearcherInvestigación

Puntos clave

Lanzamos Fish Diffusion, un marco de código abierto para la generación de audio
Fish Diffusion es útil para TTS, SVC y SVS

GitHub: https://github.com/fishaudio/fish-diffusion

Principio fundamental

En esencia, el repositorio está construido en torno a la modularidad:

Los modelos acústicos deben ser intercambiables (difusión, estilo Grad-TTS, basados en GAN).
Las señales de acondicionamiento (texto, hablante, tono, energía) deben ser modulares.

Una pila de modelado unificada

Las arquitecturas en el repositorio comparten patrones similares:

Toman lotes estructurados con claves como contenidos, hablante, tonos, energía y longitudes.
Construyen máscaras a partir de las longitudes de secuencia para evitar el cálculo de pérdida en el relleno.
Producen espectrogramas (para modelos de difusión) o formas de onda brutas (para modelos GAN).

Los modelos basados en difusión (como las rutas DiffSinger/GradTTS) se centran en generar mel-espectrogramas condicionados por una representación fusionada de texto y prosodia. Los modelos de estilo HiFiSinger van directamente a las formas de onda, apoyándose en discriminadores para imponer el realismo. A pesar de estas diferencias, están unidos por las mismas abstracciones de configuración y entrenamiento.

Acondicionamiento modular y registros

Fish Diffusion trata a los codificadores y vocoders como componentes conectables. Los codificadores de texto, de hablante, de tono y de energía se construyen a través de registros, por lo que cambiar de un extractor de características o vocoder a otro es principalmente un cambio de configuración.

Esto hace que el repositorio sea ideal para:

Configuraciones de múltiples hablantes y clonación de voz
Tareas con mucha carga de prosodia (canto, habla emocional)
Experimentación rápida con diferentes pilas de características de front-end

La misma filosofía se aplica a los modelos de difusión, planificadores y optimizadores, que también se construyen a partir de generadores basados en registros.