Wir präsentieren Fish-Speech: Ein mehrsprachiges TTS der nächsten Generation

14. Okt. 2025

Wir präsentieren Fish-Speech: Ein mehrsprachiges TTS der nächsten Generation

Die wichtigsten Erkenntnisse

  • Wir stellen Fish-Speech vor, ein modernes (SoTA), Transformer-basiertes autoregressives mehrsprachiges TTS
  • Wir verwenden eine neuartige Dual-AR-Architektur für eine stabile und natürliche Prosodie
  • Firefly-GAN-Vocoder mit nahezu 100%iger Codebook-Auslastung für ausdrucksstarke Sprache
  • Trainiert auf 720.000 Stunden Daten und entwickelt für KI-Agenten in Echtzeit

Technisches Paper: https://arxiv.org/abs/2411.01156


Fish-Speech ist ein neues mehrsprachiges Text-to-Speech-System, das LLM-Logik direkt in die Speech-Pipeline integriert. Anstatt auf anfällige Graphem-zu-Phonem-Regeln angewiesen zu sein, nutzt es Sprachmodelle, um Text nativ zu verstehen. Das macht es deutlich leistungsfähiger bei polyphonen Ausdrücken, gemischtsprachigen Inhalten und kontextabhängigen Eingaben.

Dual-AR-Architektur

Das System verwendet einen Slow Transformer für die übergeordnete linguistische Struktur und einen Fast Transformer für akustische Details. Dieser zweistufige Prozess stabilisiert die Generierung, verbessert die Codebook-Nutzung und eliminiert Diffusionslatenz. Dank KV-Cache und anderen Optimierungen erreicht Fish-Speech eine First-Packet-Latenz von etwa 150 ms, was es ideal für interaktive Agenten macht.

Firefly-GAN-Vocoder

Auf der Audio-Ebene kombiniert der Firefly-GAN-Vocoder Depthwise/Dilated Convolutions mit gruppierter skalarer Vektorquantisierung. Dieses Design erreicht eine nahezu vollständige Codebook-Auslastung und verarbeitet emotionale sowie mehrsprachige Synthese effizient bei extrem hoher Audioqualität.

Trainiert in großem Maßstab

Fish-Speech wurde auf 720.000 Stunden mehrsprachigem Audiomaterial aus den wichtigsten Sprachfamilien trainiert. Der ausgewogene Datensatz hilft dem Modell, eine konsistente Qualität über verschiedene Sprachen, Akzente und gemischtsprachige Szenarien hinweg beizubehalten.

Qualität des Voice Cloning

Das System erzielt Spitzenleistungen bei der Wortfehlerrate, der Sprecherähnlichkeit und dem MOS – es schlägt starke Baselines und übertrifft bei der WER sogar die Ground-Truth-Transkripte. Es bewahrt Klangfarbe, Prosodie und Identität mit hoher Wiedergabetreue.

Ausprobieren

Fish-Speech ist Open-Source unter:

Erstelle Stimmen, die echt wirken

Beginnen Sie noch heute mit der Erstellung von Audio in höchster Qualität.

Haben Sie bereits ein Konto? Einloggen

Diesen Artikel teilen


Lengyue

LengyueX

Lengyue is the founder of Fish Audio and a cracked researcher pushing breakthroughs in Voice AI. Follow his work at @lengyuematrix.

Mehr von Lengyue lesen >

Neueste Artikel

Alle anzeigen >