Modèles de diffusion audio

30 nov. 2024

Lengyue, AI ResearcherRecherche

Points clés

Nous lançons Fish Diffusion, un framework open-source pour la génération audio
Fish Diffusion est utile pour le TTS, le SVC et le SVS

GitHub: https://github.com/fishaudio/fish-diffusion

Principe fondamental

À la base, le dépôt est construit autour de la modularité :

Les modèles acoustiques doivent être interchangeables (diffusion, style Grad-TTS, basés sur GAN).
Les signaux de conditionnement (texte, locuteur, hauteur de ton, énergie) doivent être modulaires.

Une pile de modélisation unifiée

Les architectures du dépôt partagent toutes des schémas similaires :

Elles acceptent des lots structurés avec des clés telles que contents, speaker, pitches, energy et lengths.
Elles construisent des masques à partir des longueurs de séquence pour éviter de calculer la perte sur le padding.
Elles produisent soit des spectrogrammes (pour les modèles de diffusion), soit des formes d'onde brutes (pour les modèles GAN).

Les modèles basés sur la diffusion (comme les chemins DiffSinger/GradTTS) se concentrent sur la génération de mel-spectrogrammes conditionnés par une représentation fusionnée du texte et de la prosodie. Les modèles de style HiFiSinger passent directement aux formes d'onde, en s'appuyant sur des discriminateurs pour imposer le réalisme. Malgré ces différences, ils sont liés par les mêmes abstractions de configuration et d'entraînement.

Conditionnement modulaire et registres

Fish Diffusion traite les encodeurs et les vocodeurs comme des composants interchangeables. Les encodeurs de texte, de locuteur, de hauteur de ton et d'énergie sont tous construits via des registres, de sorte que le passage d'un extracteur de caractéristiques ou d'un vocodeur à un autre se résume principalement à une modification de configuration.

Cela rend le dépôt bien adapté pour :

Les configurations multi-locuteurs et le clonage de voix
Les tâches riches en prosodie (chant, parole émotionnelle)
L'expérimentation rapide avec différentes piles de caractéristiques front-end

La même philosophie s'applique aux modèles de diffusion, aux ordonnanceurs et aux optimiseurs, qui sont également construits à partir de constructeurs basés sur des registres.

Essayez notre dernier modèle audio de pointe

Vous pouvez essayer OpenAudio S1 dès aujourd'hui :

Fish Audio Playground (S1) : https://fish.audio
S1-mini sur Hugging Face : https://huggingface.co/fishaudio/openaudio-s1-mini

Créez des voix qui semblent réelles

Commencez à générer un son de la plus haute qualité dès aujourd'hui.

Inscrivez-vous gratuitement

Vous avez déjà un compte ? Se connecter

Partager cet article

Lengyue

Lengyue is the founder of Fish Audio and a cracked researcher pushing breakthroughs in Voice AI. Follow his work at @lengyuematrix.

Lire plus de Lengyue >