Launch von Fish Audio S1: Ein bahnbrechendes Audio-Basismodell für Text-to-Speech
20. Nov. 2025

Kernpunkte
- Wir stellen Fish Audio S1 vor, ein bahnbrechendes Audio-Basismodell für Text-to-Speech.
- Fish Audio S1 wurde mit über 2 Millionen Audiostunden mittels Online-RLHF (GRPO) trainiert.
- Fish Audio S1 erzielt 0,8 % WER und 0,4 % CER im Seed TTS Eval.
- S1 unterstützt Emotions-, Tonfall- und Spezialeffekt-Markierungen für beliebige Domänen.
S1 jetzt ausprobieren
Testen Sie das Modell kostenlos bei Fish Audio: https://fish.audio/app/text-to-speech/
Hugging Face Modellseite: https://huggingface.co/fishaudio/openaudio-s1-mini
Fish Audio S1
S1 ist in zwei Varianten erhältlich:
- S1 (4B) – das voll ausgestattete Flaggschiff-Modell, verfügbar im Fish Audio Playground
- S1-mini (0.5B) – eine destillierte Version für ressourcenbeschränkte Umgebungen, verfügbar auf Hugging Face
Beide Modelle wurden mit Online-RLHF (GRPO) unter Verwendung interner Reward-Modelle trainiert.
Modernste Sprachqualität
OpenAudio S1 wurde mit über 2 Millionen Audiostunden trainiert, wobei umfangreiche Text-Audio-Paare mit reichhaltiger Überwachung kombiniert wurden. Durch die gemeinsame Modellierung semantischer und akustischer Informationen in einem einzigen Modell vermeidet S1 den Informationsverlust, der für rein semantische Pipelines typisch ist, und reduziert Artefakte sowie Wortfehler.
Im Seed TTS Eval (mit GPT-4o-basierter Transkription und pyannote-basierten Sprecher-Metriken) erreicht S1:
- WER: 0,008
- CER: 0,004
S1-mini folgt dicht dahinter mit:
- WER: 0,011
- CER: 0,005
OpenAudio S1 erreicht zudem den höchsten ELO-Score in der HuggingFace TTS-Arena-V2 und belegt Platz 1 in der subjektiven menschlichen Bewertung von Natürlichkeit, Verständlichkeit und Ähnlichkeit.
Kontrolle auf Profi-Sprecher-Niveau
Fish Audio S1 ermöglicht eine feingranulare Kontrolle über Emotionen und Vortragsweise. Wir haben unser eigenes Speech-to-Text-Modell trainiert (Veröffentlichung in Kürze), um Audio mit Emotionen, Tonfall, Sprecher-Tags und Ereignissen zu beschriften, und dieses dann genutzt, um über 100.000 Audiostunden für das Instruction-Following zu annotieren.
Sie können S1 mit Emotions-Markern wie (wütend), (traurig), (in Eile), (kichern) und mehr steuern. Sehen Sie sich hier die vollständige Liste der empfohlenen Emotions-Tags an: https://docs.fish.audio/developer-guide/core-features/emotions
Globale, mehrsprachige Stimmen
OpenAudio S1 ist auf globale Reichweite ausgelegt. Es unterstützt eine Vielzahl von Sprachen, darunter:
Englisch, Chinesisch, Japanisch, Deutsch, Französisch, Spanisch, Koreanisch, Arabisch, Russisch, Niederländisch, Italienisch, Polnisch, Portugiesisch
Sie können Sprachen im selben Prompt mischen, und das Modell passt sich natürlich an das Skript und den Kontext an.
Architektur, Geschwindigkeit und Kosten
Unter der Haube nutzt OpenAudio S1:
- Die Qwen3-Architektur als multimodales Backbone
- Einen internen Audio-Codec, der konzeptionell dem Descript Audio Codec ähnelt und von Grund auf neu trainiert wurde
- Online-RLHF mit GRPO zur Optimierung auf menschliche Präferenzen
Dank torch compile und optimierter Inferenz läuft S1 mit einem Echtzeitfaktor von ca. 1:7 auf einer NVIDIA RTX 4090, was es für interaktive Anwendungen praktisch macht.
Preislich ist S1 so konzipiert, dass es wirklich zugänglich ist:
- Etwa 15 $ pro Million Bytes, was ungefähr 0,8 $ pro Audiostunde entspricht.
Dies macht hochwertiges TTS selbst für große Mengen oder budgetsensible Workloads realisierbar.
- Zero-Shot- & Few-Shot-Voice-Cloning anhand kurzer Stichproben
- Mehrsprachiges und sprachübergreifendes TTS
- Keine Phonem-Abhängigkeit, verarbeitet beliebige Skripte direkt aus dem Text
Erste Schritte mit OpenAudio S1
Sie können OpenAudio S1 noch heute ausprobieren:
- Fish Audio Playground (S1): https://fish.audio
- S1-mini auf Hugging Face: https://huggingface.co/fishaudio/openaudio-s1-mini

