Audio-Diffusionsmodelle

30. Nov. 2024

Lengyue, AI ResearcherForschung

Wichtige Erkenntnisse

Wir führen Fish Diffusion ein, ein Open-Source-Framework für die Audiogenerierung
Fish Diffusion ist nützlich für TTS, SVC und SVS

GitHub: https://github.com/fishaudio/fish-diffusion

Kernprinzip

Im Kern ist das Repository auf Modularität aufgebaut:

Akustische Modelle sollten austauschbar sein (Diffusion, Grad-TTS-Stil, GAN-basiert).
Konditionierungssignale (Text, Sprecher, Tonhöhe, Energie) sollten modular sein.

Ein vereinheitlichter Modellierungs-Stack

Die Architekturen im Repo teilen alle ähnliche Muster:

Sie verarbeiten strukturierte Batches mit Schlüsseln wie Inhalten, Sprechern, Tonhöhen, Energie und Längen.
Sie erstellen Masken aus Sequenzlängen, um die Berechnung von Verlusten bei Padding zu vermeiden.
Sie erzeugen entweder Spektrogramme (für Diffusionsmodelle) oder rohe Wellenformen (für GAN-Modelle).

Diffusionsbasierte Modelle (wie die DiffSinger/GradTTS-Pfade) konzentrieren sich auf die Erzeugung von Mel-Spektrogrammen, die auf einer kombinierten Darstellung von Text und Prosodie konditioniert sind. Modelle im HiFiSinger-Stil erzeugen direkt Wellenformen und verlassen sich auf Diskriminatoren, um Realismus zu erzwingen. Trotz dieser Unterschiede sind sie durch dieselben Konfigurations- und Trainingsabstraktionen miteinander verbunden.

Modulare Konditionierung und Register

Fish Diffusion behandelt Encoder und Vocoder als steckbare Komponenten. Text-Encoder, Sprecher-Encoder, Tonhöhen-Encoder und Energie-Encoder werden alle über Register aufgebaut, sodass der Wechsel von einem Feature-Extraktor oder Vocoder zum anderen meist nur eine Konfigurationsänderung ist.

Dies macht das Repo bestens geeignet für: