Audio-Diffusionsmodelle
30. Nov. 2024

Wichtige Erkenntnisse
- Wir führen Fish Diffusion ein, ein Open-Source-Framework für die Audiogenerierung
- Fish Diffusion ist nützlich für TTS, SVC und SVS
GitHub: https://github.com/fishaudio/fish-diffusion
Kernprinzip
Im Kern ist das Repository auf Modularität aufgebaut:
- Akustische Modelle sollten austauschbar sein (Diffusion, Grad-TTS-Stil, GAN-basiert).
- Konditionierungssignale (Text, Sprecher, Tonhöhe, Energie) sollten modular sein.
Ein vereinheitlichter Modellierungs-Stack
Die Architekturen im Repo teilen alle ähnliche Muster:
- Sie verarbeiten strukturierte Batches mit Schlüsseln wie Inhalten, Sprechern, Tonhöhen, Energie und Längen.
- Sie erstellen Masken aus Sequenzlängen, um die Berechnung von Verlusten bei Padding zu vermeiden.
- Sie erzeugen entweder Spektrogramme (für Diffusionsmodelle) oder rohe Wellenformen (für GAN-Modelle).
Diffusionsbasierte Modelle (wie die DiffSinger/GradTTS-Pfade) konzentrieren sich auf die Erzeugung von Mel-Spektrogrammen, die auf einer kombinierten Darstellung von Text und Prosodie konditioniert sind. Modelle im HiFiSinger-Stil erzeugen direkt Wellenformen und verlassen sich auf Diskriminatoren, um Realismus zu erzwingen. Trotz dieser Unterschiede sind sie durch dieselben Konfigurations- und Trainingsabstraktionen miteinander verbunden.
Modulare Konditionierung und Register
Fish Diffusion behandelt Encoder und Vocoder als steckbare Komponenten. Text-Encoder, Sprecher-Encoder, Tonhöhen-Encoder und Energie-Encoder werden alle über Register aufgebaut, sodass der Wechsel von einem Feature-Extraktor oder Vocoder zum anderen meist nur eine Konfigurationsänderung ist.
Dies macht das Repo bestens geeignet für:
- Multi-Speaker- und Voice-Cloning-Setups
- Prosodie-intensive Aufgaben (Gesang, emotionale Sprache)
- Schnelles Experimentieren mit verschiedenen Front-End-Feature-Stacks
Dieselbe Philosophie gilt für Diffusionsmodelle, Scheduler und Optimizer, die ebenfalls aus registerbasierten Buildern erstellt werden.
Testen Sie unser neuestes Frontier-Audiomodell
Sie können OpenAudio S1 heute ausprobieren:
- Fish Audio Playground (S1): https://fish.audio
- S1-mini auf Hugging Face: https://huggingface.co/fishaudio/openaudio-s1-mini

