Modelos de Difusión de Audio

30 nov 2024

Modelos de Difusión de Audio

Puntos clave

  • Lanzamos Fish Diffusion, un marco de código abierto para la generación de audio
  • Fish Diffusion es útil para TTS, SVC y SVS

GitHub: https://github.com/fishaudio/fish-diffusion

Principio fundamental

En esencia, el repositorio está construido en torno a la modularidad:

  1. Los modelos acústicos deben ser intercambiables (difusión, estilo Grad-TTS, basados en GAN).
  2. Las señales de acondicionamiento (texto, hablante, tono, energía) deben ser modulares.

Una pila de modelado unificada

Las arquitecturas en el repositorio comparten patrones similares:

  • Toman lotes estructurados con claves como contenidos, hablante, tonos, energía y longitudes.
  • Construyen máscaras a partir de las longitudes de secuencia para evitar el cálculo de pérdida en el relleno.
  • Producen espectrogramas (para modelos de difusión) o formas de onda brutas (para modelos GAN).

Los modelos basados en difusión (como las rutas DiffSinger/GradTTS) se centran en generar mel-espectrogramas condicionados por una representación fusionada de texto y prosodia. Los modelos de estilo HiFiSinger van directamente a las formas de onda, apoyándose en discriminadores para imponer el realismo. A pesar de estas diferencias, están unidos por las mismas abstracciones de configuración y entrenamiento.

Acondicionamiento modular y registros

Fish Diffusion trata a los codificadores y vocoders como componentes conectables. Los codificadores de texto, de hablante, de tono y de energía se construyen a través de registros, por lo que cambiar de un extractor de características o vocoder a otro es principalmente un cambio de configuración.

Esto hace que el repositorio sea ideal para:

  • Configuraciones de múltiples hablantes y clonación de voz
  • Tareas con mucha carga de prosodia (canto, habla emocional)
  • Experimentación rápida con diferentes pilas de características de front-end

La misma filosofía se aplica a los modelos de difusión, planificadores y optimizadores, que también se construyen a partir de generadores basados en registros.

Pruebe nuestro modelo de audio de vanguardia más reciente

Puede probar OpenAudio S1 hoy mismo:

Crea voces que se sienten reales

Comienza a generar audio de la más alta calidad hoy mismo.

¿Ya tienes una cuenta? Iniciar sesión

Compartir este artículo


Lengyue

LengyueX

Lengyue is the founder of Fish Audio and a cracked researcher pushing breakthroughs in Voice AI. Follow his work at @lengyuematrix.

Leer más de Lengyue >

Artículos Recientes

Ver todo >