Fish Audio veröffentlicht S2 als Open-Source: Fein abgestimmte Steuerung trifft auf produktionsreifes Streaming

S2 Pro ist in der Fish Audio App verfügbar und als Open-Source über das GitHub-Repository des Projekts sowie HuggingFace zugänglich.
Fish Audio hat S2 als Open-Source veröffentlicht, ein Text-to-Speech-Modell, das eine präzise Inline-Steuerung von Prosodie und Emotionen mittels natürlicher Sprach-Tags wie [laugh], [whispers] und [super happy] unterstützt. Trainiert auf über 10 Millionen Stunden Audio in etwa 50 Sprachen, kombiniert das System Reinforcement Learning Alignment mit einer dual-autoregressiven Architektur. Die Veröffentlichung umfasst Modellgewichte, Fine-Tuning-Code und eine auf SGLang basierende Streaming-Inference-Engine.
Fein abgestimmte Inline-Steuerung durch natürliche Sprache
S2 ermöglicht Inline-Steuerung der Spracherzeugung, indem Anweisungen in natürlicher Sprache direkt an bestimmten Wort- oder Phrasenpositionen im Text eingebettet werden. Anstatt auf einen festen Satz vordefinierter Tags angewiesen zu sein, akzeptiert S2 freiformulierte Textbeschreibungen – wie [whisper in small voice], [professional broadcast tone] oder [pitch up] – was eine ergebnisoffene Steuerung des Ausdrucks auf Wortebene erlaubt.
Beim Audio-Turing-Test erreicht S2 einen posterioren Mittelwert von 0,515 mit Instruction-Rewriting, verglichen mit 0,417 für Seed-TTS und 0,387 für MiniMax-Speech. Auf EmergentTTS-Eval erreicht es eine Gesamtsiegerrate von 81,88 % gegenüber einer gpt-4o-mini-tts-Baseline – der höchste Wert unter allen evaluierten Modellen, einschließlich Closed-Source-Systemen von Google und OpenAI.
Beispiel für das S2-Eingabeformat mit einem Dialog mehrerer Sprecher und freiformulierten Inline-Tags in natürlicher Sprache für präzise Steuerung.
Ein einheitliches Rezept: Datenkuratierung und RL-Belohnungen aus denselben Modellen
Eine zentrale architektonische Entscheidung bei S2 ist, dass dieselben Modelle, die zum Filtern und Annotieren von Trainingsdaten verwendet werden, direkt als Belohnungsmodelle (Reward Models) während des Reinforcement Learning wiederverwendet werden:
- Das Sprachqualitätsmodell bewertet Audio in Dimensionen wie SNR, Sprecherkonsistenz und Verständlichkeit während der Datenfilterung – und dient dann als akustische Präferenzbelohnung während des RL.
- Das Rich-Transcription ASR-Modell (weitergeführtes Pretraining von Qwen3-Omni-30B-A3B) generiert bildunterschriftenergänzte Transkripte mit paralinguistischen Inline-Annotationen während der Datenkuratierung – und liefert dann die Belohnung für Verständlichkeit und Befolgung von Anweisungen, indem es generiertes Audio erneut transkribiert und mit dem ursprünglichen Prompt vergleicht.
Dieses duale Design eliminiert konstruktionsbedingt die Diskrepanz in der Verteilung (Distribution Mismatch) zwischen Pretraining-Daten und Post-Training-Zielen – ein Problem, das in anderen TTS-Systemen, die Belohnungsmodelle getrennt von ihren Datenpipelines trainieren, ungelöst bleibt.
Ein Blick ins Modell: Dual-AR-Architektur
S2 basiert auf einem Decoder-only Transformer in Kombination mit einem RVQ-basierten Audio-Codec (10 Codebooks, ~21 Hz Framerate). Das einfache Abflachen aller Codebooks entlang der Zeitachse würde zu einer 10-fachen Explosion der Sequenzlänge führen. S2 löst dies mit einer dual-autoregressiven (Dual-AR) Architektur:
- Slow AR arbeitet entlang der Zeitachse und sagt das primäre semantische Codebook voraus.
- Fast AR generiert die verbleibenden 9 Residual-Codebooks bei jedem Zeitschritt und rekonstruiert fein abgestimmte akustische Details.
Dieses asymmetrische Design – 4 Mrd. Parameter entlang der Zeitachse, 400 Mio. Parameter entlang der Tiefenachse – hält die Inferenz effizient und bewahrt gleichzeitig die Audioqualität.
Reinforcement Learning Alignment für Sprache
Für das Post-Training nutzt S2 Group Relative Policy Optimization (GRPO), gewählt um den Speicher-Overhead von PPO-ähnlichen Value-Modellen in langen Audiokontexten zu vermeiden. Das Belohnungssignal kombiniert mehrere Dimensionen, darunter:
- Semantische Genauigkeit und Befolgung von Anweisungen
- Akustische Präferenzbewertung
- Timbresimilarität
Benchmark-Ergebnisse
S2 erreicht führende Ergebnisse in mehreren öffentlichen Benchmarks:
| Benchmark | Fish Audio S2 |
|---|---|
| Seed-TTS Eval — WER (Chinesisch) | 0,54 % (insgesamt am besten) |
| Seed-TTS Eval — WER (Englisch) | 0,99 % (insgesamt am besten) |
| Audio-Turing-Test (mit Anweisung) | 0,515 posteriorer Mittelwert |
| EmergentTTS-Eval — Siegerrate | 81,88 % (insgesamt am höchsten) |
| Fish Instruction Benchmark — TAR | 93,3 % |
| Fish Instruction Benchmark — Qualität | 4,51 / 5,0 |
| Multilingual (MiniMax Testset) — Bestes WER | 11 von 24 Sprachen |
| Multilingual (MiniMax Testset) — Bestes SIM | 17 von 24 Sprachen |
Auf Seed-TTS Eval erreicht S2 die niedrigste WER unter allen evaluierten Modellen, einschließlich Closed-Source-Systemen: Qwen3-TTS (0,77/1,24), MiniMax Speech-02 (0,99/1,90), Seed-TTS (1,12/2,25). Beim Audio-Turing-Test übertrifft 0,515 Seed-TTS (0,417) um 24 % und MiniMax-Speech (0,387) um 33 %. Auf EmergentTTS-Eval erzielt S2 besonders starke Ergebnisse in den Bereichen Paralinguistik (91,61 % Siegerrate), Fragen (84,41 %) und syntaktische Komplexität (83,39 %).
Produktionsreifes Streaming via SGLang
Da die Dual-AR-Architektur von S2 strukturell isomorph zu standardmäßigen autoregressiven LLMs ist, kann sie direkt alle LLM-nativen Serving-Optimierungen von SGLang mit minimalen Änderungen übernehmen – einschließlich Continuous Batching, Paged KV Cache, CUDA Graph Replay und RadixAttention-basiertem Prefix Caching.
Für Voice Cloning platziert S2 Referenz-Audio-Token im System-Prompt. RadixAttention von SGLang cached diese KV-Zustände automatisch und erreicht eine durchschnittliche Prefix-Cache-Trefferquote von 86,4 % (über 90 % in Spitzenzeiten), wenn dieselbe Stimme über mehrere Anfragen hinweg wiederverwendet wird – wodurch der Prefill-Overhead für Referenz-Audio nahezu vernachlässigbar wird.
Auf einer einzelnen NVIDIA H200 GPU:
- Real-Time Factor (RTF): 0,195
- Time-to-first-audio: ca. 100 ms
- Durchsatz: 3.000+ akustische Token/s bei Beibehaltung eines RTF unter 0,5
Warum diese Veröffentlichung wichtig ist
S2 wird nicht nur als Modell-Checkpoint veröffentlicht, sondern als komplettes System: Modellgewichte, Fine-Tuning-Code und ein produktionsreifer Inferenz-Stack.
Zwei Designentscheidungen stechen hervor. Erstens eliminiert die vereinheitlichte Daten- und Belohnungs-Pipeline ein strukturelles Problem – die Diskrepanz in der Verteilung zwischen Pretraining und RL –, das andere TTS-Systeme auf architektonischer Ebene bisher nicht angegangen sind. Zweitens bedeutet die strukturelle Isomorphie zwischen der Dual-AR-Architektur und Standard-LLMs, dass S2 das gesamte Ökosystem der LLM-Serving-Optimierungen nutzen kann, anstatt eine maßgeschneiderte Inferenz-Infrastruktur zu erfordern.
S2 ist über das GitHub-Repository des Projekts, SGLang-Omni, HuggingFace und eine interaktive Demo auf fish.audio verfügbar.


