9. März 2026Open Source, Forschung

Fish Audio veröffentlicht S2 als Open-Source: Fein abgestimmte Steuerung trifft auf produktionsreifes Streaming

S2 Pro ist in der Fish Audio App verfügbar und als Open-Source über das GitHub-Repository des Projekts sowie HuggingFace zugänglich.

Fish Audio hat S2 als Open-Source veröffentlicht, ein Text-to-Speech-Modell, das eine präzise Inline-Steuerung von Prosodie und Emotionen mittels natürlicher Sprach-Tags wie [laugh], [whispers] und [super happy] unterstützt. Trainiert auf über 10 Millionen Stunden Audio in etwa 50 Sprachen, kombiniert das System Reinforcement Learning Alignment mit einer dual-autoregressiven Architektur. Die Veröffentlichung umfasst Modellgewichte, Fine-Tuning-Code und eine auf SGLang basierende Streaming-Inference-Engine.

Fein abgestimmte Inline-Steuerung durch natürliche Sprache

S2 ermöglicht Inline-Steuerung der Spracherzeugung, indem Anweisungen in natürlicher Sprache direkt an bestimmten Wort- oder Phrasenpositionen im Text eingebettet werden. Anstatt auf einen festen Satz vordefinierter Tags angewiesen zu sein, akzeptiert S2 freiformulierte Textbeschreibungen – wie [whisper in small voice], [professional broadcast tone] oder [pitch up] – was eine ergebnisoffene Steuerung des Ausdrucks auf Wortebene erlaubt.

Beim Audio-Turing-Test erreicht S2 einen posterioren Mittelwert von 0,515 mit Instruction-Rewriting, verglichen mit 0,417 für Seed-TTS und 0,387 für MiniMax-Speech. Auf EmergentTTS-Eval erreicht es eine Gesamtsiegerrate von 81,88 % gegenüber einer gpt-4o-mini-tts-Baseline – der höchste Wert unter allen evaluierten Modellen, einschließlich Closed-Source-Systemen von Google und OpenAI.

Beispiel für das S2-Eingabeformat Beispiel für das S2-Eingabeformat mit einem Dialog mehrerer Sprecher und freiformulierten Inline-Tags in natürlicher Sprache für präzise Steuerung.

Ein einheitliches Rezept: Datenkuratierung und RL-Belohnungen aus denselben Modellen

Eine zentrale architektonische Entscheidung bei S2 ist, dass dieselben Modelle, die zum Filtern und Annotieren von Trainingsdaten verwendet werden, direkt als Belohnungsmodelle (Reward Models) während des Reinforcement Learning wiederverwendet werden:

Das Sprachqualitätsmodell bewertet Audio in Dimensionen wie SNR, Sprecherkonsistenz und Verständlichkeit während der Datenfilterung – und dient dann als akustische Präferenzbelohnung während des RL.
Das Rich-Transcription ASR-Modell (weitergeführtes Pretraining von Qwen3-Omni-30B-A3B) generiert bildunterschriftenergänzte Transkripte mit paralinguistischen Inline-Annotationen während der Datenkuratierung – und liefert dann die Belohnung für Verständlichkeit und Befolgung von Anweisungen, indem es generiertes Audio erneut transkribiert und mit dem ursprünglichen Prompt vergleicht.

Dieses duale Design eliminiert konstruktionsbedingt die Diskrepanz in der Verteilung (Distribution Mismatch) zwischen Pretraining-Daten und Post-Training-Zielen – ein Problem, das in anderen TTS-Systemen, die Belohnungsmodelle getrennt von ihren Datenpipelines trainieren, ungelöst bleibt.

Ein Blick ins Modell: Dual-AR-Architektur

S2 basiert auf einem Decoder-only Transformer in Kombination mit einem RVQ-basierten Audio-Codec (10 Codebooks, ~21 Hz Framerate). Das einfache Abflachen aller Codebooks entlang der Zeitachse würde zu einer 10-fachen Explosion der Sequenzlänge führen. S2 löst dies mit einer dual-autoregressiven (Dual-AR) Architektur:

Slow AR arbeitet entlang der Zeitachse und sagt das primäre semantische Codebook voraus.
Fast AR generiert die verbleibenden 9 Residual-Codebooks bei jedem Zeitschritt und rekonstruiert fein abgestimmte akustische Details.

Dieses asymmetrische Design – 4 Mrd. Parameter entlang der Zeitachse, 400 Mio. Parameter entlang der Tiefenachse – hält die Inferenz effizient und bewahrt gleichzeitig die Audioqualität.

Reinforcement Learning Alignment für Sprache

Für das Post-Training nutzt S2 Group Relative Policy Optimization (GRPO), gewählt um den Speicher-Overhead von PPO-ähnlichen Value-Modellen in langen Audiokontexten zu vermeiden. Das Belohnungssignal kombiniert mehrere Dimensionen, darunter:

Semantische Genauigkeit und Befolgung von Anweisungen
Akustische Präferenzbewertung
Timbresimilarität

Benchmark-Ergebnisse

S2 erreicht führende Ergebnisse in mehreren öffentlichen Benchmarks:

Benchmark	Fish Audio S2
Seed-TTS Eval — WER (Chinesisch)	0,54 % (insgesamt am besten)
Seed-TTS Eval — WER (Englisch)	0,99 % (insgesamt am besten)
Audio-Turing-Test (mit Anweisung)	0,515 posteriorer Mittelwert
EmergentTTS-Eval — Siegerrate	81,88 % (insgesamt am höchsten)
Fish Instruction Benchmark — TAR	93,3 %
Fish Instruction Benchmark — Qualität	4,51 / 5,0
Multilingual (MiniMax Testset) — Bestes WER	11 von 24 Sprachen
Multilingual (MiniMax Testset) — Bestes SIM	17 von 24 Sprachen

Auf Seed-TTS Eval erreicht S2 die niedrigste WER unter allen evaluierten Modellen, einschließlich Closed-Source-Systemen: Qwen3-TTS (0,77/1,24), MiniMax Speech-02 (0,99/1,90), Seed-TTS (1,12/2,25). Beim Audio-Turing-Test übertrifft 0,515 Seed-TTS (0,417) um 24 % und MiniMax-Speech (0,387) um 33 %. Auf EmergentTTS-Eval erzielt S2 besonders starke Ergebnisse in den Bereichen Paralinguistik (91,61 % Siegerrate), Fragen (84,41 %) und syntaktische Komplexität (83,39 %).

Produktionsreifes Streaming via SGLang

Da die Dual-AR-Architektur von S2 strukturell isomorph zu standardmäßigen autoregressiven LLMs ist, kann sie direkt alle LLM-nativen Serving-Optimierungen von SGLang mit minimalen Änderungen übernehmen – einschließlich Continuous Batching, Paged KV Cache, CUDA Graph Replay und RadixAttention-basiertem Prefix Caching.

Für Voice Cloning platziert S2 Referenz-Audio-Token im System-Prompt. RadixAttention von SGLang cached diese KV-Zustände automatisch und erreicht eine durchschnittliche Prefix-Cache-Trefferquote von 86,4 % (über 90 % in Spitzenzeiten), wenn dieselbe Stimme über mehrere Anfragen hinweg wiederverwendet wird – wodurch der Prefill-Overhead für Referenz-Audio nahezu vernachlässigbar wird.

Auf einer einzelnen NVIDIA H200 GPU:

Real-Time Factor (RTF): 0,195
Time-to-first-audio: ca. 100 ms
Durchsatz: 3.000+ akustische Token/s bei Beibehaltung eines RTF unter 0,5

Warum diese Veröffentlichung wichtig ist

S2 wird nicht nur als Modell-Checkpoint veröffentlicht, sondern als komplettes System: Modellgewichte, Fine-Tuning-Code und ein produktionsreifer Inferenz-Stack.

Zwei Designentscheidungen stechen hervor. Erstens eliminiert die vereinheitlichte Daten- und Belohnungs-Pipeline ein strukturelles Problem – die Diskrepanz in der Verteilung zwischen Pretraining und RL –, das andere TTS-Systeme auf architektonischer Ebene bisher nicht angegangen sind. Zweitens bedeutet die strukturelle Isomorphie zwischen der Dual-AR-Architektur und Standard-LLMs, dass S2 das gesamte Ökosystem der LLM-Serving-Optimierungen nutzen kann, anstatt eine maßgeschneiderte Inferenz-Infrastruktur zu erfordern.

S2 ist über das GitHub-Repository des Projekts, SGLang-Omni, HuggingFace und eine interaktive Demo auf fish.audio verfügbar.

Shijia Liao

Founder & Chief-Scientist of Fish Audio.

Mehr von Shijia Liao lesen

Erstelle Stimmen, die echt wirken

Beginnen Sie noch heute mit der Erstellung von Audio in höchster Qualität.

Kostenlos anmelden

Haben Sie bereits ein Konto? Einloggen

Last Updates

Creator Spotlight: Nick — Gameplay in etwas Markantes verwandeln

9. Apr. 2026ANWENDUNGSFÄLLE

Creator Spotlight: Nick — Gameplay in etwas Markantes verwandeln

Fish Audio CommunityFish Audio Community Team

Blog-Cover mit abstraktem impressionistischem Ölgemälde-Hintergrund in warmen Creme- und Pfirsichtönen. Schlagzeile oben links „Wir haben unser TTS im Blindtest gegen alle großen Wettbewerber getestet“ mit einer Reihe von vier Karten aus Milchglas darunter, die die Bradley-Terry-Scores zeigen: Fish Audio S2 Pro bei 3,07 mit 66 % Gewinnrate, Fish Audio S1, ElevenLabs V3 und Inworld.

5. Apr. 2026Forschung

Wir haben unser TTS im Blindtest gegen alle großen Wettbewerber getestet. Hier sind die Ergebnisse.

Shijia LiaoChief Scientist

4. Apr. 2026Guide

7 Open-Source-Modell-Inferenzanbieter im Vergleich: Welchen sollten Sie 2026 wählen?

Sabrina ShuSupport & Marketing Specialist

Fish Audio veröffentlicht S2 als Open-Source: Fein abgestimmte Steuerung trifft auf produktionsreifes Streaming

Fein abgestimmte Inline-Steuerung durch natürliche Sprache

Ein einheitliches Rezept: Datenkuratierung und RL-Belohnungen aus denselben Modellen

Ein Blick ins Modell: Dual-AR-Architektur

Reinforcement Learning Alignment für Sprache

Benchmark-Ergebnisse

Produktionsreifes Streaming via SGLang

Warum diese Veröffentlichung wichtig ist

Erstelle Stimmen, die echt wirken

Last Updates

Creator Spotlight: Nick — Gameplay in etwas Markantes verwandeln

Wir haben unser TTS im Blindtest gegen alle großen Wettbewerber getestet. Hier sind die Ergebnisse.

7 Open-Source-Modell-Inferenzanbieter im Vergleich: Welchen sollten Sie 2026 wählen?

Recommended

Wir haben unser TTS im Blindtest gegen alle großen Wettbewerber getestet. Hier sind die Ergebnisse.

Podcast-Transkriptionstool — So transkribieren Sie Ihren Podcast mit Fish Audio

Bestes KI-TTS für Kreativteams! Der Fish Audio Team-Plan erklärt

Fish Audio S2! Fein abgestimmte KI-Stimmsteuerung auf Wortebene

Schritt-für-Schritt-Anleitung: So nutzen Sie SAM Audio für die Audiotrennung

Launch von Fish Audio S1: Ein bahnbrechendes Audio-Basismodell für Text-to-Speech