Fish Audio veröffentlicht S2 als Open-Source: Feingranulare Kontrolle trifft auf produktionsreifes Streaming

9. März 2026

Open SourceForschung

Fish Audio veröffentlicht S2 als Open-Source: Feingranulare Kontrolle trifft auf produktionsreifes Streaming

S2 Open Source ist über das GitHub-Repository des Projekts und HuggingFace verfügbar.

Fish Audio hat S2 als Open Source veröffentlicht, ein Text-to-Speech-Modell, das eine feingranulare Inline-Steuerung von Prosodie und Emotionen durch natürlichsprachliche Tags wie [laugh], [whispers] und [super happy] unterstützt. Das System wurde mit über 10 Millionen Stunden Audiomaterial in etwa 50 Sprachen trainiert und kombiniert Reinforcement Learning Alignment mit einer dual-autoregressiven Architektur. Die Veröffentlichung umfasst Modellgewichte, Fine-Tuning-Code und eine SGLang-basierte Streaming-Inference-Engine.

Feingranulare Inline-Steuerung via natürlicher Sprache

S2 ermöglicht eine Inline-Steuerung der Spracherzeugung, indem natürlichsprachliche Anweisungen direkt an bestimmten Wort- oder Phrasenpositionen im Text eingebettet werden. Anstatt auf einen festen Satz vordefinierter Tags angewiesen zu sein, akzeptiert S2 freiformulierte Textbeschreibungen – wie [whisper in small voice], [professional broadcast tone] oder [pitch up] – was eine ergebnisoffene Steuerung des Ausdrucks auf Wortebene ermöglicht.

Beim Audio Turing Test erreicht S2 einen Posterior-Mittelwert von 0,515 mit Instruction Rewriting, verglichen mit 0,417 für Seed-TTS und 0,387 für MiniMax-Speech. Auf EmergentTTS-Eval erreicht es eine Gesamt-Win-Rate von 81,88 % gegenüber einer gpt-4o-mini-tts-Baseline – der höchste Wert unter allen evaluierten Modellen, einschließlich Closed-Source-Systemen von Google und OpenAI.

Beispiel für das S2-Eingabeformat Beispiel für das S2-Eingabeformat mit einem Dialog mehrerer Sprecher und freiformulierten natürlichsprachlichen Inline-Tags für eine feingranulare Steuerung.

Ein einheitliches Rezept: Daten-Kuratierung und RL-Belohnungen aus denselben Modellen

Eine zentrale architektonische Entscheidung bei S2 ist, dass dieselben Modelle, die zum Filtern und Annotieren der Trainingsdaten verwendet werden, direkt als Belohnungsmodelle (Reward Models) während des Reinforcement Learning wiederverwendet werden:

Sprachqualitätsmodell bewertet Audioaufnahmen während der Datenfilterung in Dimensionen wie SNR, Sprecherkonsistenz und Verständlichkeit – und dient dann als akustische Präferenzbelohnung während des RL.
Rich-Transcription ASR-Modell (weiterentwickelt aus Qwen3-Omni-30B-A3B) generiert während der Daten-Kuratierung mit Captions ergänzte Transkripte mit paralinguistischen Inline-Annotationen – und liefert dann die Belohnung für Verständlichkeit und Befolgung von Anweisungen, indem es generiertes Audio erneut transkribiert und mit dem ursprünglichen Prompt vergleicht.

Dieses duale Design eliminiert konstruktionsbedingt die Verteilungsdiskrepanz (Distribution Mismatch) zwischen Pre-Training-Daten und Post-Training-Zielen – ein Problem, das in anderen TTS-Systemen, die Belohnungsmodelle getrennt von ihren Daten-Pipelines trainieren, ungelöst bleibt.

Blick ins Modell: Dual-AR-Architektur

S2 basiert auf einem Decoder-only Transformer in Kombination mit einem RVQ-basierten Audio-Codec (10 Codebücher, ~21 Hz Framerate). Das Abflachen aller Codebücher entlang der Zeitachse würde zu einer zehnfachen Explosion der Sequenzlänge führen. S2 löst dies mit einer Dual-Autoregressiven (Dual-AR) Architektur:

Slow AR arbeitet entlang der Zeitachse und sagt das primäre semantische Codebuch voraus.
Fast AR generiert bei jedem Zeitschritt die verbleibenden 9 Residual-Codebücher und rekonstruiert so feingranulare akustische Details.

Dieses asymmetrische Design – 4 Mrd. Parameter entlang der Zeitachse, 400 Mio. Parameter entlang der Tiefenachse – hält die Inferenz effizient und bewahrt gleichzeitig die Audioqualität.

Reinforcement Learning Alignment für Sprache

Für das Post-Training verwendet S2 die Group Relative Policy Optimization (GRPO), die gewählt wurde, um den Speicher-Overhead von Value-Modellen im PPO-Stil in langen Audiokontexten zu vermeiden. Das Belohnungssignal kombiniert mehrere Dimensionen, darunter:

Semantische Genauigkeit und Befolgung von Anweisungen
Akustische Präferenzbewertung
Timbre-Ähnlichkeit

Benchmark-Ergebnisse

S2 erzielt führende Ergebnisse in mehreren öffentlichen Benchmarks:

Benchmark	Fish Audio S2
Seed-TTS Eval — WER (Chinesisch)	0,54 % (insgesamt am besten)
Seed-TTS Eval — WER (Englisch)	0,99 % (insgesamt am besten)
Audio Turing Test (mit Anweisung)	0,515 Posterior-Mittelwert
EmergentTTS-Eval — Win-Rate	81,88 % (insgesamt am höchsten)
Fish Instruction Benchmark — TAR	93,3 %
Fish Instruction Benchmark — Qualität	4,51 / 5,0
Multilingual (MiniMax Testset) — Beste WER	11 von 24 Sprachen
Multilingual (MiniMax Testset) — Beste SIM	17 von 24 Sprachen

Bei Seed-TTS Eval erreicht S2 die niedrigste WER unter allen evaluierten Modellen, einschließlich Closed-Source-Systemen: Qwen3-TTS (0,77/1,24), MiniMax Speech-02 (0,99/1,90), Seed-TTS (1,12/2,25). Beim Audio Turing Test übertrifft 0,515 Seed-TTS (0,417) um 24 % und MiniMax-Speech (0,387) um 33 %. Bei EmergentTTS-Eval erzielt S2 besonders starke Ergebnisse in den Bereichen Paralinguistik (91,61 % Win-Rate), Fragen (84,41 %) und syntaktische Komplexität (83,39 %).

Produktionsreifes Streaming via SGLang

Da die Dual-AR-Architektur von S2 strukturell isomorph zu standardmäßigen autoregressiven LLMs ist, kann sie direkt alle LLM-nativen Serving-Optimierungen von SGLang mit minimalen Änderungen übernehmen – einschließlich Continuous Batching, Paged KV Cache, CUDA Graph Replay und RadixAttention-basiertem Prefix Caching.

Für das Voice Cloning platziert S2 Referenz-Audio-Token im System-Prompt. RadixAttention von SGLang cached diese KV-Zustände automatisch und erreicht eine durchschnittliche Prefix-Cache-Trefferquote von 86,4 % (über 90 % in der Spitze), wenn dieselbe Stimme über mehrere Anfragen hinweg wiederverwendet wird – wodurch der Overhead für den Referenz-Audio-Prefill fast vernachlässigbar wird.

Auf einer einzelnen NVIDIA H200 GPU:

Real-Time Factor (RTF): 0,195
Time-to-first-audio: ca. 100 ms
Durchsatz: 3.000+ akustische Token/s bei einem RTF unter 0,5

Warum diese Veröffentlichung wichtig ist

S2 wird nicht nur als Modell-Checkpoint veröffentlicht, sondern als komplettes System: Modellgewichte, Fine-Tuning-Code und ein produktionsreifer Inferenz-Stack.

Zwei Design-Entscheidungen stechen hervor. Erstens eliminiert die einheitliche Daten- und Belohnungs-Pipeline ein strukturelles Problem – die Verteilungsdiskrepanz zwischen Pre-Training und RL –, das andere TTS-Systeme auf architektonischer Ebene bisher nicht gelöst haben. Zweitens bedeutet die strukturelle Isomorphie zwischen der Dual-AR-Architektur und Standard-LLMs, dass S2 das gesamte Ökosystem von LLM-Serving-Optimierungen nutzen kann, anstatt eine maßgeschneiderte Inferenz-Infrastruktur zu erfordern.

S2 ist über das GitHub-Repository des Projekts, SGLang-Omni, HuggingFace und als interaktive Demo auf fish.audio verfügbar.

Häufig Gestellte Fragen

S2 unterstützt die native Generierung von Dialogen mit mehreren Sprechern und mehreren Runden. Durch das direkte Einbetten von Sprecher-Tags und natürlichsprachlichen Inline-Anweisungen in den Input verwebt S2 mehrere Stimmen miteinander. Dabei werden ein konsistentes Timbre beibehalten, die Prosodie angepasst und sprecherspezifische emotionale Hinweise berücksichtigt – was es ideal für die Generierung vollständiger Gespräche macht, nicht nur für Erzählungen mit einer Stimme.

Ja. S2 ist über die Fish Audio API auf fish.audio verfügbar. Die vollständigen Modellgewichte, der Fine-Tuning-Code und die SGLang-basierte Inferenz-Engine sind ebenfalls auf GitHub (github.com/fishaudio/fish-speech) und HuggingFace (huggingface.co/fishaudio/s2-pro) für das Self-Hosting als Open Source verfügbar.

S2 akzeptiert freiformulierte natürlichsprachliche Inline-Tags anstelle eines festen vordefinierten Satzes – Sie sind also nicht auf ein geschlossenes Vokabular beschränkt. Tags wie [laugh], [whispers], [super happy], [professional broadcast tone] oder [pitch up] können an jeder beliebigen Wort- oder Phrasenposition eingefügt werden. Da das System mit offen formulierten Beschreibungen trainiert wurde, lassen sich neue Tags gut über die im Training gesehenen Beispiele hinaus verallgemeinern.

S2 wurde mit über 10 Millionen Stunden Audiomaterial in etwa 80 Sprachen trainiert. Auf dem multilingualen MiniMax-Testset – das 24 Sprachen abdeckt – erreicht S2 in 11 Sprachen die beste WER und in 17 Sprachen die beste Sprecherähnlichkeit. Damit übertrifft es sowohl MiniMax als auch ElevenLabs in der Mehrheit des Benchmarks: Arabisch, Kantonesisch, Chinesisch, Tschechisch, Niederländisch, Englisch, Finnisch, Französisch, Deutsch, Griechisch, Hindi, Indonesisch, Italienisch, Japanisch, Koreanisch, Polnisch, Portugiesisch, Rumänisch, Russisch, Spanisch, Thailändisch, Türkisch, Ukrainisch, Vietnamesisch.