Audio-Diffusionsmodelle

30. Nov. 2024

Audio-Diffusionsmodelle

Wichtige Erkenntnisse

  • Wir führen Fish Diffusion ein, ein Open-Source-Framework für die Audiogenerierung
  • Fish Diffusion ist nützlich für TTS, SVC und SVS

GitHub: https://github.com/fishaudio/fish-diffusion

Kernprinzip

Im Kern ist das Repository auf Modularität aufgebaut:

  1. Akustische Modelle sollten austauschbar sein (Diffusion, Grad-TTS-Stil, GAN-basiert).
  2. Konditionierungssignale (Text, Sprecher, Tonhöhe, Energie) sollten modular sein.

Ein vereinheitlichter Modellierungs-Stack

Die Architekturen im Repo teilen alle ähnliche Muster:

  • Sie verarbeiten strukturierte Batches mit Schlüsseln wie Inhalten, Sprechern, Tonhöhen, Energie und Längen.
  • Sie erstellen Masken aus Sequenzlängen, um die Berechnung von Verlusten bei Padding zu vermeiden.
  • Sie erzeugen entweder Spektrogramme (für Diffusionsmodelle) oder rohe Wellenformen (für GAN-Modelle).

Diffusionsbasierte Modelle (wie die DiffSinger/GradTTS-Pfade) konzentrieren sich auf die Erzeugung von Mel-Spektrogrammen, die auf einer kombinierten Darstellung von Text und Prosodie konditioniert sind. Modelle im HiFiSinger-Stil erzeugen direkt Wellenformen und verlassen sich auf Diskriminatoren, um Realismus zu erzwingen. Trotz dieser Unterschiede sind sie durch dieselben Konfigurations- und Trainingsabstraktionen miteinander verbunden.

Modulare Konditionierung und Register

Fish Diffusion behandelt Encoder und Vocoder als steckbare Komponenten. Text-Encoder, Sprecher-Encoder, Tonhöhen-Encoder und Energie-Encoder werden alle über Register aufgebaut, sodass der Wechsel von einem Feature-Extraktor oder Vocoder zum anderen meist nur eine Konfigurationsänderung ist.

Dies macht das Repo bestens geeignet für:

  • Multi-Speaker- und Voice-Cloning-Setups
  • Prosodie-intensive Aufgaben (Gesang, emotionale Sprache)
  • Schnelles Experimentieren mit verschiedenen Front-End-Feature-Stacks

Dieselbe Philosophie gilt für Diffusionsmodelle, Scheduler und Optimizer, die ebenfalls aus registerbasierten Buildern erstellt werden.

Testen Sie unser neuestes Frontier-Audiomodell

Sie können OpenAudio S1 heute ausprobieren:

Erstelle Stimmen, die echt wirken

Beginnen Sie noch heute mit der Erstellung von Audio in höchster Qualität.

Haben Sie bereits ein Konto? Einloggen

Diesen Artikel teilen


Lengyue

LengyueX

Lengyue is the founder of Fish Audio and a cracked researcher pushing breakthroughs in Voice AI. Follow his work at @lengyuematrix.

Mehr von Lengyue lesen >

Neueste Artikel

Alle anzeigen >