Wir präsentieren Fish-Speech: Ein mehrsprachiges TTS der nächsten Generation

14. Okt. 2025

Wir präsentieren Fish-Speech: Ein mehrsprachiges TTS der nächsten Generation

Die wichtigsten Erkenntnisse

Wir stellen Fish-Speech vor, ein modernes (SoTA), Transformer-basiertes autoregressives mehrsprachiges TTS
Wir verwenden eine neuartige Dual-AR-Architektur für eine stabile und natürliche Prosodie
Firefly-GAN-Vocoder mit nahezu 100%iger Codebook-Auslastung für ausdrucksstarke Sprache
Trainiert auf 720.000 Stunden Daten und entwickelt für KI-Agenten in Echtzeit

Technisches Paper: https://arxiv.org/abs/2411.01156

Fish-Speech ist ein neues mehrsprachiges Text-to-Speech-System, das LLM-Logik direkt in die Speech-Pipeline integriert. Anstatt auf anfällige Graphem-zu-Phonem-Regeln angewiesen zu sein, nutzt es Sprachmodelle, um Text nativ zu verstehen. Das macht es deutlich leistungsfähiger bei polyphonen Ausdrücken, gemischtsprachigen Inhalten und kontextabhängigen Eingaben.

Dual-AR-Architektur

Das System verwendet einen Slow Transformer für die übergeordnete linguistische Struktur und einen Fast Transformer für akustische Details. Dieser zweistufige Prozess stabilisiert die Generierung, verbessert die Codebook-Nutzung und eliminiert Diffusionslatenz. Dank KV-Cache und anderen Optimierungen erreicht Fish-Speech eine First-Packet-Latenz von etwa 150 ms, was es ideal für interaktive Agenten macht.

Firefly-GAN-Vocoder

Auf der Audio-Ebene kombiniert der Firefly-GAN-Vocoder Depthwise/Dilated Convolutions mit gruppierter skalarer Vektorquantisierung. Dieses Design erreicht eine nahezu vollständige Codebook-Auslastung und verarbeitet emotionale sowie mehrsprachige Synthese effizient bei extrem hoher Audioqualität.

Trainiert in großem Maßstab

Fish-Speech wurde auf 720.000 Stunden mehrsprachigem Audiomaterial aus den wichtigsten Sprachfamilien trainiert. Der ausgewogene Datensatz hilft dem Modell, eine konsistente Qualität über verschiedene Sprachen, Akzente und gemischtsprachige Szenarien hinweg beizubehalten.

Qualität des Voice Cloning

Das System erzielt Spitzenleistungen bei der Wortfehlerrate, der Sprecherähnlichkeit und dem MOS – es schlägt starke Baselines und übertrifft bei der WER sogar die Ground-Truth-Transkripte. Es bewahrt Klangfarbe, Prosodie und Identität mit hoher Wiedergabetreue.