Wir präsentieren Fish-Speech: Ein mehrsprachiges TTS der nächsten Generation
14. Okt. 2025

Die wichtigsten Erkenntnisse
- Wir stellen Fish-Speech vor, ein modernes (SoTA), Transformer-basiertes autoregressives mehrsprachiges TTS
- Wir verwenden eine neuartige Dual-AR-Architektur für eine stabile und natürliche Prosodie
- Firefly-GAN-Vocoder mit nahezu 100%iger Codebook-Auslastung für ausdrucksstarke Sprache
- Trainiert auf 720.000 Stunden Daten und entwickelt für KI-Agenten in Echtzeit
Technisches Paper: https://arxiv.org/abs/2411.01156
Fish-Speech ist ein neues mehrsprachiges Text-to-Speech-System, das LLM-Logik direkt in die Speech-Pipeline integriert. Anstatt auf anfällige Graphem-zu-Phonem-Regeln angewiesen zu sein, nutzt es Sprachmodelle, um Text nativ zu verstehen. Das macht es deutlich leistungsfähiger bei polyphonen Ausdrücken, gemischtsprachigen Inhalten und kontextabhängigen Eingaben.
Dual-AR-Architektur
Das System verwendet einen Slow Transformer für die übergeordnete linguistische Struktur und einen Fast Transformer für akustische Details. Dieser zweistufige Prozess stabilisiert die Generierung, verbessert die Codebook-Nutzung und eliminiert Diffusionslatenz. Dank KV-Cache und anderen Optimierungen erreicht Fish-Speech eine First-Packet-Latenz von etwa 150 ms, was es ideal für interaktive Agenten macht.
Firefly-GAN-Vocoder
Auf der Audio-Ebene kombiniert der Firefly-GAN-Vocoder Depthwise/Dilated Convolutions mit gruppierter skalarer Vektorquantisierung. Dieses Design erreicht eine nahezu vollständige Codebook-Auslastung und verarbeitet emotionale sowie mehrsprachige Synthese effizient bei extrem hoher Audioqualität.
Trainiert in großem Maßstab
Fish-Speech wurde auf 720.000 Stunden mehrsprachigem Audiomaterial aus den wichtigsten Sprachfamilien trainiert. Der ausgewogene Datensatz hilft dem Modell, eine konsistente Qualität über verschiedene Sprachen, Akzente und gemischtsprachige Szenarien hinweg beizubehalten.
Qualität des Voice Cloning
Das System erzielt Spitzenleistungen bei der Wortfehlerrate, der Sprecherähnlichkeit und dem MOS – es schlägt starke Baselines und übertrifft bei der WER sogar die Ground-Truth-Transkripte. Es bewahrt Klangfarbe, Prosodie und Identität mit hoher Wiedergabetreue.
Ausprobieren
Fish-Speech ist Open-Source unter:
- GitHub: https://github.com/fishaudio/fish-speech
- Demo: https://fish.audio

