Modelos de Difusión de Audio
30 nov 2024

Puntos clave
- Lanzamos Fish Diffusion, un marco de código abierto para la generación de audio
- Fish Diffusion es útil para TTS, SVC y SVS
GitHub: https://github.com/fishaudio/fish-diffusion
Principio fundamental
En esencia, el repositorio está construido en torno a la modularidad:
- Los modelos acústicos deben ser intercambiables (difusión, estilo Grad-TTS, basados en GAN).
- Las señales de acondicionamiento (texto, hablante, tono, energía) deben ser modulares.
Una pila de modelado unificada
Las arquitecturas en el repositorio comparten patrones similares:
- Toman lotes estructurados con claves como contenidos, hablante, tonos, energía y longitudes.
- Construyen máscaras a partir de las longitudes de secuencia para evitar el cálculo de pérdida en el relleno.
- Producen espectrogramas (para modelos de difusión) o formas de onda brutas (para modelos GAN).
Los modelos basados en difusión (como las rutas DiffSinger/GradTTS) se centran en generar mel-espectrogramas condicionados por una representación fusionada de texto y prosodia. Los modelos de estilo HiFiSinger van directamente a las formas de onda, apoyándose en discriminadores para imponer el realismo. A pesar de estas diferencias, están unidos por las mismas abstracciones de configuración y entrenamiento.
Acondicionamiento modular y registros
Fish Diffusion trata a los codificadores y vocoders como componentes conectables. Los codificadores de texto, de hablante, de tono y de energía se construyen a través de registros, por lo que cambiar de un extractor de características o vocoder a otro es principalmente un cambio de configuración.
Esto hace que el repositorio sea ideal para:
- Configuraciones de múltiples hablantes y clonación de voz
- Tareas con mucha carga de prosodia (canto, habla emocional)
- Experimentación rápida con diferentes pilas de características de front-end
La misma filosofía se aplica a los modelos de difusión, planificadores y optimizadores, que también se construyen a partir de generadores basados en registros.
Pruebe nuestro modelo de audio de vanguardia más reciente
Puede probar OpenAudio S1 hoy mismo:
- Fish Audio Playground (S1): https://fish.audio
- S1-mini en Hugging Face: https://huggingface.co/fishaudio/openaudio-s1-mini

