Launch von Fish Audio S1: Ein bahnbrechendes Audio-Basismodell für Text-to-Speech

20. Nov. 2025

Zhizhuo Zhou, ML ResearcherForschung

Launch von Fish Audio S1: Ein bahnbrechendes Audio-Basismodell für Text-to-Speech

Kernpunkte

Wir stellen Fish Audio S1 vor, ein bahnbrechendes Audio-Basismodell für Text-to-Speech.
Fish Audio S1 wurde mit über 2 Millionen Audiostunden mittels Online-RLHF (GRPO) trainiert.
Fish Audio S1 erzielt 0,8 % WER und 0,4 % CER im Seed TTS Eval.
S1 unterstützt Emotions-, Tonfall- und Spezialeffekt-Markierungen für beliebige Domänen.

S1 jetzt ausprobieren

Testen Sie das Modell kostenlos bei Fish Audio: https://fish.audio/app/text-to-speech/

Hugging Face Modellseite: https://huggingface.co/fishaudio/openaudio-s1-mini

Fish Audio S1

S1 ist in zwei Varianten erhältlich:

S1 (4B) – das voll ausgestattete Flaggschiff-Modell, verfügbar im Fish Audio Playground
S1-mini (0.5B) – eine destillierte Version für ressourcenbeschränkte Umgebungen, verfügbar auf Hugging Face

Beide Modelle wurden mit Online-RLHF (GRPO) unter Verwendung interner Reward-Modelle trainiert.

Modernste Sprachqualität

OpenAudio S1 wurde mit über 2 Millionen Audiostunden trainiert, wobei umfangreiche Text-Audio-Paare mit reichhaltiger Überwachung kombiniert wurden. Durch die gemeinsame Modellierung semantischer und akustischer Informationen in einem einzigen Modell vermeidet S1 den Informationsverlust, der für rein semantische Pipelines typisch ist, und reduziert Artefakte sowie Wortfehler.

Im Seed TTS Eval (mit GPT-4o-basierter Transkription und pyannote-basierten Sprecher-Metriken) erreicht S1:

WER: 0,008
CER: 0,004

S1-mini folgt dicht dahinter mit:

WER: 0,011
CER: 0,005

OpenAudio S1 erreicht zudem den höchsten ELO-Score in der HuggingFace TTS-Arena-V2 und belegt Platz 1 in der subjektiven menschlichen Bewertung von Natürlichkeit, Verständlichkeit und Ähnlichkeit.

Kontrolle auf Profi-Sprecher-Niveau

Fish Audio S1 ermöglicht eine feingranulare Kontrolle über Emotionen und Vortragsweise. Wir haben unser eigenes Speech-to-Text-Modell trainiert (Veröffentlichung in Kürze), um Audio mit Emotionen, Tonfall, Sprecher-Tags und Ereignissen zu beschriften, und dieses dann genutzt, um über 100.000 Audiostunden für das Instruction-Following zu annotieren.

Sie können S1 mit Emotions-Markern wie (wütend), (traurig), (in Eile), (kichern) und mehr steuern. Sehen Sie sich hier die vollständige Liste der empfohlenen Emotions-Tags an: https://docs.fish.audio/developer-guide/core-features/emotions

Globale, mehrsprachige Stimmen

OpenAudio S1 ist auf globale Reichweite ausgelegt. Es unterstützt eine Vielzahl von Sprachen, darunter:

Englisch, Chinesisch, Japanisch, Deutsch, Französisch, Spanisch, Koreanisch, Arabisch, Russisch, Niederländisch, Italienisch, Polnisch, Portugiesisch

Sie können Sprachen im selben Prompt mischen, und das Modell passt sich natürlich an das Skript und den Kontext an.

Architektur, Geschwindigkeit und Kosten

Unter der Haube nutzt OpenAudio S1:

Die Qwen3-Architektur als multimodales Backbone
Einen internen Audio-Codec, der konzeptionell dem Descript Audio Codec ähnelt und von Grund auf neu trainiert wurde
Online-RLHF mit GRPO zur Optimierung auf menschliche Präferenzen

Dank torch compile und optimierter Inferenz läuft S1 mit einem Echtzeitfaktor von ca. 1:7 auf einer NVIDIA RTX 4090, was es für interaktive Anwendungen praktisch macht.

Preislich ist S1 so konzipiert, dass es wirklich zugänglich ist:

Etwa 15 $ pro Million Bytes, was ungefähr 0,8 $ pro Audiostunde entspricht.

Dies macht hochwertiges TTS selbst für große Mengen oder budgetsensible Workloads realisierbar.

Zero-Shot- & Few-Shot-Voice-Cloning anhand kurzer Stichproben
Mehrsprachiges und sprachübergreifendes TTS
Keine Phonem-Abhängigkeit, verarbeitet beliebige Skripte direkt aus dem Text

Erste Schritte mit OpenAudio S1

Sie können OpenAudio S1 noch heute ausprobieren:

Fish Audio Playground (S1): https://fish.audio
S1-mini auf Hugging Face: https://huggingface.co/fishaudio/openaudio-s1-mini

Erstelle Stimmen, die echt wirken

Beginnen Sie noch heute mit der Erstellung von Audio in höchster Qualität.

Kostenlos anmelden

Haben Sie bereits ein Konto? Einloggen

Diesen Artikel teilen

Zhizhuo Zhou

Z is a co-founder of Fish Audio and gigachad AI researcher at Stanford focusing on diffusion and 3D generative models. Find him as a barista bartender at exclusive popups, and see his work at zhiz.dev.

Mehr von Zhizhuo Zhou lesen >