12. März 2026Anleitung

Fish Audio S2! Fein abgestimmte KI-Stimmsteuerung auf Wortebene

Sabrina Shu, Support & Marketing Specialist

Fish Audio S2! Fein abgestimmte KI-Stimmsteuerung auf Wortebene

Fish Audio S2 bringt Open-Domain-Inline-Tags, KI-Stimmsteuerung auf Wortebene und Unterstützung für 80 Sprachen in die expressive TTS. Erfahren Sie anhand echter Beispiele, wie es funktioniert.

März 2026 | Fish Audio S2 ist ab sofort verfügbar

Inhaltsverzeichnis

Was ist Fish Audio S2?
Was S2 kann — In 30 Sekunden
Inline-Tags in Fish Audio S2
Echte Beispiele
Die Leistung von S2 — Benchmark-Ergebnisse
80 Sprachen
Open Source
Erste Schritte
FAQ

Die meisten KI-Stimm-Tools bieten Ihnen eine Stimme und lassen Sie die Stimmung auf globaler Ebene anpassen — ruhiger, energetischer, etwas wärmer. Fish Audio S2 verfolgt einen anderen Ansatz für expressive TTS. Sie führen Regie über die Stimme auf Wortebene, in einfacher Sprache, direkt in Ihrem Skript. Wenn Sie mit den Fish Audio Emotions-Tags in S1 vertraut sind: S2 erweitert dieses Konzept dramatisch durch Open-Domain-Inline-Steuerung.

So sieht das in der Praxis aus:

I thought I was ready. [voice breaking] I wasn't.

[soft voice] Take your time. There's no rush.

That was the third time this week. [sigh] I really need to fix that.

Keine Einstellungsmenüs. Kein SSML. Keine Postproduktion. Sie schreiben die Anweisung direkt in den Text, und S2 setzt sie um.

Kurzzusammenfassung

Fish Audio S2 führt Inline-Tags für die expressive TTS-Steuerung auf Wortebene ein.

Open-Domain-Tags in natürlicher Sprache — kein festes Vokabular
Platzierung mitten im Satz für präzises Timing und Wechsel in der Darbietung
Unterstützung für ca. 80 Sprachen
Open-Source-Modellgewichte, Fine-Tuning-Code und Inference-Stack

Anstatt globale Stimmeinstellungen anzupassen, lässt S2 Sie die Darbietung direkt in Ihrem Skript steuern.

Was ist Fish Audio S2?

https://www.youtube.com/watch?v=NIcXTOSdOXc

Fish Audio S2 ist das TTS-Modell der zweiten Generation von Fish Audio. Es wurde mit über 10 Millionen Stunden Audiomaterial in etwa 80 Sprachen trainiert und führt die Inline-Tag-Steuerung ein: Anweisungen in natürlicher Sprache, die an jeder beliebigen Stelle direkt in Ihr Skript eingebettet werden können. Dies ermöglicht eine fein abgestimmte Steuerung darüber, wie Sprache auf Wort- oder Phrasenebene ausgegeben wird.

Das Modell ist Open Source auf GitHub und HuggingFace verfügbar und kann über die Fish Audio API und APP genutzt werden.

Was S2 kann — In 30 Sekunden

Die Inline-Tags von S2 sind Anweisungen in eckigen Klammern, die an einer beliebigen Stelle in Ihrem Text platziert werden:

[whispering] Don't let them hear you.

She set the folder down. [long pause] Then she looked up.

[laughing] I have absolutely no idea what just happened.

Tags beeinflussen das, was nach ihnen kommt. Platzieren Sie den Tag genau an dem Punkt, an dem der Wechsel stattfinden soll — nicht am Anfang des Satzes, es sei denn, Sie möchten es genau dort.

Sie wählen nicht aus einem festen Menü. Sie schreiben die Beschreibung, und S2 interpretiert sie:

[the calm, measured tone of someone who has done this a thousand times]
Please place your hands where I can see them.

[overly cheerful, clearly forcing it]
Everything is completely fine. Totally fine.

Wenn Sie es einem Synchronsprecher beschreiben können, kann S2 es versuchen.

Inline-Tags in Fish Audio S2

Inline-Tags sind der zentrale Steuerungsmechanismus in Fish Audio S2. Es handelt sich um Anweisungen in natürlicher Sprache in [eckigen Klammern], die Sie direkt in Ihr Skript einbetten, um die Sprechweise zu steuern — bei jedem Wort, an jedem Punkt.

Syntax

Platzieren Sie einen Tag in [eckigen Klammern] unmittelbar vor dem Wort oder der Phrase, die er beeinflussen soll. Tags können überall stehen — am Anfang, in der Mitte oder am Ende eines Satzes.

[whispering] I didn't want to go inside.
I didn't want to go [whispering] inside.

Beides funktioniert. Das erste flüstert die gesamte Zeile. Das zweite flüstert ab „inside“. Die Platzierung bestimmt die Bedeutung.

Schreiben Sie Tags in Ihrer Sprache

Tags müssen nicht auf Englisch sein. S2 versteht Anweisungen in natürlicher Sprache in 80 Sprachen — Sie können Tags also in derselben Sprache wie Ihr Skript schreiben.

日本語 (Japanisch)

[囁き声で] 誰にも聞かせないで。
[ため息をついて] もう一度やり直そう。

中文 (Chinesisch)

[低声说] 不要让他们听见。
[叹气] 我真的不知道该怎么办了。

español (Spanisch)

[susurrando] No dejes que te escuchen.
[enojado] ¿Cómo pudiste hacer eso?

한국어 (Koreanisch)

[속삭이며] 아무도 모르게 해줘.
[화나서] 어떻게 그럴 수가 있어.

Es gilt dieselbe Logik: Platzieren Sie den Tag unmittelbar vor dem Wort oder der Phrase, die er beeinflussen soll, in der Sprache, die sich für Ihr Skript natürlich anfühlt.

Bewährte Tags

S2 akzeptiert jede Beschreibung in natürlicher Sprache, aber diese Tags liefern konsistent starke Ergebnisse. Tags gelten ab dem Punkt ihres Erscheinens bis zum nächsten Tag oder zum Ende des Satzes.

Atmung & Reaktionen

Vokale Klänge

Tempo

Stimmstil

Emotion

Sonstiges

Freiform-Beschreibungen

Über die obige Liste hinaus akzeptiert S2 völlig freie Beschreibungen. Schreiben Sie das, was Sie einem Synchronsprecher sagen würden:

[speaking slowly, almost hesitant]
[professional broadcast tone]
[dead tired, end of a very long shift]
[pitch up]
[voice rough from crying, trying to sound normal]

Da S2 mit offenen Beschreibungen trainiert wurde, lassen sich neue Tags gut verallgemeinern — Sie sind nicht auf Beispiele beschränkt, die während des Trainings vorkamen.

Kombinieren von Tags

Verketten Sie Tags über einen Abschnitt hinweg, um Wechsel in der Darbietung zu erzeugen:

[soft voice] I wasn't sure what to say. [long pause] [loud voice] But then it hit me.

Verwenden Sie Reaktions-Tags zwischen Sätzen für natürliche Übergänge:

That was the third time this week. [sigh] I really need to fix that.

Die Kombination einer Reaktion mit einem Emotions-Tag lässt das Gefühl physisch realer wirken:

[sigh] [sad] I just don't know anymore.

Echte Beispiele

Hörbuch-Vertonung

[NARRATOR, low and slow] Chapter Nine. The Last Morning. The apartment felt different that day — smaller, somehow.

SARAH: [voice rough from crying, trying to sound normal] I made coffee. Do you want some?

DANIEL: [long pause, then quietly] Yeah. Thanks.

Podcast

Today we're looking at something I've spent three months trying to understand.

[chuckling] I kept getting it wrong. My producer will confirm this.

Spiel-Dialog

VILLAIN: [calm, almost bored, as if this conversation is beneath them] You came all this way.

VILLAIN: [sudden fury, voice tight] Where is it?

VILLAIN: [composure returning, dangerously quiet] Did you really think that would work?

HERO: [exhausted, but steady] Every time.

Sprachassistent

[friendly, warm] Hi — thanks for calling. How can I help you today?

[empathetic, unhurried] I'm sorry to hear that. Let me pull this up.

[confident] Good news — I can see exactly what happened, and I'm going to get this sorted for you right now.

Tipps für die besten Ergebnisse

Die Inline-Tags von S2 sind ausdrucksstark, aber wie stark sie wirken, hängt davon ab, wie Sie sie einsetzen — und mit welcher Stimme Sie arbeiten. Diese Tipps basieren auf Praxistests.

Kombinieren Sie physische Tags mit einem Emotions-Tag. Tags wie [panting], [whispering] und [shouting] funktionieren zwar allein, aber der Effekt kann ohne emotionalen Kontext flach wirken. Die Kombination mit einem Emotions-Tag liefert konsistentere, natürlicher klingende Ergebnisse:

[panting] [tired] I've been running for twenty minutes.
[whispering] [scared] Don't move. Don't make a sound.
[shouting] [angry] I told you this would happen!

Lassen Sie auf einen beschreibenden Tag immer Text folgen. Ein beschreibender Tag wie [voice rough from crying, trying to sound normal] benötigt eine Zeile zum Sprechen — lassen Sie ihn nicht allein stehen. Der Tag steuert die Darbietung dessen, was folgt; ohne Text danach kann die Ausgabe unvorhersehbar sein.

✅  [voice rough from crying, trying to sound normal] I made coffee. Do you want some?
❌  [voice rough from crying, trying to sound normal]

Testen Sie die Stimme, bevor Sie das Skript erstellen. Verschiedene Stimmen reagieren auf denselben Tag mit unterschiedlicher Intensität. Eine Stimme mit einer von Natur aus ruhigen Lage zeigt subtilere Änderungen als eine ausdrucksstarke. Wenn ein Tag nicht wie erwartet wirkt, versuchen Sie es mit einer anderen Stimme, bevor Sie den Tag selbst anpassen — das Problem liegt oft an der Stimme, nicht an der Anweisung.

Beginnen Sie einfach und fügen Sie dann Ebenen hinzu. Ein einzelner, gut platzierter [sigh] oder [long pause] kann eine Zeile komplett verändern. Fügen Sie erst dann mehr Tags hinzu, wenn die einfachere Version nicht ausreicht. Zu viele Tags können sich gegenseitig stören.

Demnächst: Wählen Sie Ihren Favoriten aus mehreren Generierungen. S2 wird die gleichzeitige Generierung mehrerer Versionen derselben Zeile unterstützen, sodass Sie die Darbietung vergleichen und auswählen können, die am besten passt — ähnlich wie bei Bildgenerierungstools, bei denen Sie aus einem Batch wählen können. Dies wird es erheblich erleichtern, die richtige Performance zu finden, ohne die Tags jedes Mal manuell anpassen zu müssen.

Die Leistung von S2 — Benchmark-Ergebnisse

Die Inline-Steuerung von S2 ist nicht nur ein UX-Feature — sie korreliert auch mit einer starken Leistung in öffentlichen Sprach-Benchmarks. Diese Benchmarks messen die Natürlichkeit der Sprache, die Genauigkeit der Aussprache und die Fähigkeit zur Befolgung von Anweisungen bei modernen TTS-Systemen.

Beim Audio-Turing-Test erzielt S2 eine Punktzahl von 0,515 — und übertrifft damit Seed-TTS um 24 % und MiniMax-Speech um 33 %. Bei EmergentTTS-Eval erreicht es besonders starke Ergebnisse in der Paralinguistik (91,61 % Gewinnrate), was direkt die Qualität der Inline-Tag-Ausführung widerspiegelt.

Bei Seed-TTS Eval erreicht S2 die niedrigste Wortfehlerrate unter allen evaluierten Modellen, einschließlich Closed-Source-Systemen: Qwen3-TTS (0,77 % / 1,24 %), MiniMax Speech-02 (0,99 % / 1,90 %) und Seed-TTS (1,12 % / 2,25 %).

Quelle: Fish Audio S2 Launch-Beitrag von Shijia Liao, Chief Scientist

80 Sprachen

S2 wurde mit über 10 Millionen Stunden Audiomaterial in etwa 80 Sprachen trainiert. Im multilingualen MiniMax-Testset, das 24 Sprachen abdeckt, erreicht S2 in 11 Sprachen die beste Wortfehlerrate und in 17 die beste Sprecherähnlichkeit — und übertrifft damit sowohl MiniMax als auch ElevenLabs in der Mehrheit des Benchmarks.

Zu den Sprachen mit bestätigter starker Leistung gehören: Arabisch, Kantonesisch, Chinesisch, Tschechisch, Niederländisch, Englisch, Finnisch, Französisch, Deutsch, Griechisch, Hindi, Indonesisch, Italienisch, Japanisch, Koreanisch, Polnisch, Portugiesisch, Rumänisch, Russisch, Spanisch, Thailändisch, Türkisch, Ukrainisch, Vietnamesisch.

Open Source

Im Gegensatz zu den meisten kommerziellen TTS-Systemen ist Fish Audio S2 vollständig Open Source — Modellgewichte, Fine-Tuning-Code und eine produktionsreife, auf SGLang basierende Inference-Engine — was es Entwicklern ermöglicht, das Modell selbst zu hosten, zu verfeinern und in großem Maßstab einzusetzen.

GitHub: github.com/fishaudio/fish-speech
HuggingFace: huggingface.co/fishaudio/s2-pro
SGLang Inference: SGLang-Omni

Produktionsleistung auf einer einzelnen H200-GPU:

Echtzeit-Faktor: 0,195
Zeit bis zum ersten Audio: ~100ms
Durchsatz: 3.000+ akustische Token/s

Für das Stimmenklonen im großen Maßstab platziert S2 Referenz-Audio-Token im System-Prompt. Der KV-Cache von SGLang erreicht eine durchschnittliche Prefix-Cache-Trefferquote von 86,4 %, wenn dieselbe Stimme über mehrere Anfragen hinweg wiederverwendet wird — was den Overhead für wiederholtes Stimmenklonen nahezu vernachlässigbar macht.

Erste Schritte

Probieren Sie es in der APP aus — fish.audio unterstützt S2-Inline-Tags direkt. Platzieren Sie [eckige Klammern] an einer beliebigen Stelle in Ihrem Skript und generieren Sie.
Über die API integrieren — Verfügbar über die Fish Audio API. In der API-Referenz finden Sie Informationen zu Endpunkten und Authentifizierung.
Das Modell selbst hosten — Gewichte und Inference-Stack sind Open Source auf GitHub und HuggingFace verfügbar.

Demnächst verfügbar: Dialog-Generierung mit mehreren Sprechern in der Fish Audio APP und API.
Für eine vollständige Anleitung zu Inline-Tag-Syntax, Platzierungsregeln und Tipps: → Verwendung von Fish Audio S2 Inline-Tags
Wenn Sie von S1 kommen und wissen möchten, wie die beiden Systeme zusammenhängen: → Fish Audio S1 Emotions-Tags — Vollständiger Leitfaden

FAQ

Was sind Inline-Tags in TTS?

Inline-Tags sind kurze Anweisungen, die direkt in ein Text-to-Speech-Skript eingebettet werden, um zu steuern, wie ein bestimmtes Wort oder eine Phrase gesprochen wird — die Darbietung, Emotion, das Tempo oder die Stimmqualität an genau diesem Punkt. Im Gegensatz zu globalen Stimmeinstellungen, die für eine gesamte Generierung gelten, ermöglichen Inline-Tags die Steuerung einzelner Momente innerhalb einer Zeile. Fish Audio S2 verwendet [eckige Klammern] für Inline-Tags und akzeptiert freie Beschreibungen in natürlicher Sprache.

Was ist Fish Audio S2?

Fish Audio S2 ist das TTS-Modell der zweiten Generation von Fish Audio. Es unterstützt eine fein abgestimmte Inline-Steuerung über Tags in natürlicher Sprache in [eckigen Klammern], die überall in einem Skript platziert werden können. Trainiert wurde es mit über 10 Millionen Stunden Audiomaterial in etwa 80 Sprachen. Es ist Open Source auf GitHub und HuggingFace verfügbar und kann über die Fish Audio API und APP genutzt werden.

Wie funktionieren Inline-Tags in S2?

Platzieren Sie einen Tag in [eckigen Klammern] unmittelbar vor dem Wort oder der Phrase, die er beeinflussen soll. Sie können bewährte Tags wie [whispering], [sigh] oder [long pause] verwenden oder jede beliebige Beschreibung in natürlicher Sprache schreiben. Tags gelten für alles Folgende bis zum nächsten Tag oder zum Ende des Satzes.

Ist Fish Audio S2 Open Source?

Ja. Modellgewichte, Fine-Tuning-Code und die SGLang-basierte Inference-Engine sind Open Source unter github.com/fishaudio/fish-speech und huggingface.co/fishaudio/s2-pro verfügbar.

Wie viele Sprachen unterstützt S2?

S2 wurde mit etwa 80 Sprachen trainiert. In einem multilingualen Benchmark mit 24 Sprachen erreicht S2 die beste Wortfehlerrate in 11 Sprachen und die beste Sprecherähnlichkeit in 17, womit es MiniMax und ElevenLabs übertrifft.

Unterstützt S2 die Klammer-Syntax () von S1?

Nein. S2 verwendet nativ [eckige Klammern]. Die Fish Audio Web-Oberfläche übersetzt () automatisch in [], wenn S2 ausgewählt ist. Wenn Sie jedoch die API direkt verwenden, nutzen Sie eckige Klammern.

Unterstützt S2 Dialoge mit mehreren Sprechern?

Die Generierung für mehrere Sprecher wird in Kürze in der Fish Audio APP und API verfügbar sein. Das Modell unterstützt dies nativ — bleiben Sie gespannt auf den Rollout.

Was ist der Unterschied zwischen Fish Audio S1 und S2?

S1 verwendet ein festes Vokabular aus voreingestellten Emotions-Tags in (runden Klammern), die am Anfang von Sätzen platziert werden. S2 verwendet Open-Domain-Tags in natürlicher Sprache in [eckigen Klammern], die überall im Skript erscheinen können — mitten im Satz, zwischen Wörtern oder am Anfang. S2 akzeptiert zudem freie Beschreibungen anstelle einer geschlossenen Stichwortliste, sodass Sie nicht auf vordefinierte Emotionen beschränkt sind. Eine vollständige Aufschlüsselung finden Sie im Fish Audio S1 Emotions-Tag-Leitfaden.

Kann Fish Audio S2 SSML ersetzen?

Für die meisten expressiven Anwendungsfälle: Ja. Fish Audio S2 kann viele SSML-ähnliche Steuerungen durch Inline-Tags in natürlicher Sprache nachbilden — statt XML-Markup wie <prosody rate="slow"> schreiben Sie [speaking slowly] direkt in das Skript. Tags wie [whispering], [long pause] und [angry] decken die häufigsten expressiven Funktionen von SSML ab, ohne dass spezielle Markup-Kenntnisse erforderlich sind.

Sind die Inline-Tags von Fish Audio S2 mit anderen TTS-Systemen kompatibel?

Nein. Die Inline-Tag-Syntax in Fish Audio S2 ist spezifisch für dieses Modell. Andere TTS-Systeme verwenden SSML oder eigene proprietäre Formate. Die zugrunde liegenden expressiven Konzepte — Pausen, Tonfalländerungen, vokale Hinweise — lassen sich jedoch konzeptionell übertragen, auch wenn die Syntax abweicht.

Weiterführende Ressourcen:

Sabrina Shu

Sabrina is part of Fish Audio's support and marketing team, helping users get the most out of AI voice products while turning launches, updates, and customer insights into clear, practical content.

Mehr von Sabrina Shu lesen

Erstelle Stimmen, die echt wirken

Beginnen Sie noch heute mit der Erstellung von Audio in höchster Qualität.

Kostenlos anmelden

Haben Sie bereits ein Konto? Einloggen

Last Updates

Fish Audio AI Voice Changer — komplette Anleitung für Content Creator

22. Apr. 2026ANLEITUNG

Verwendung eines AI Voice Changers — Komplette Anleitung für Content Creator

Sabrina ShuSupport & Marketing Specialist

Leitfaden für Fish Audio DMCA & Urheberrecht – wie man eine DMCA-Takedown-Anfrage bei Fish Audio einreicht

15. Apr. 2026INFO

So reichen Sie eine DMCA-Anfrage bei Fish Audio ein

Sabrina ShuSupport & Marketing Specialist

9. Apr. 2026ANWENDUNGSFÄLLE

Creator Spotlight: Nick — Gameplay in etwas Markantes verwandeln

Fish Audio CommunityFish Audio Community Team

Fish Audio S2! Fein abgestimmte KI-Stimmsteuerung auf Wortebene

Kurzzusammenfassung

Was ist Fish Audio S2?

Was S2 kann — In 30 Sekunden

Inline-Tags in Fish Audio S2

Syntax

Schreiben Sie Tags in Ihrer Sprache

Bewährte Tags

Freiform-Beschreibungen

Kombinieren von Tags

Echte Beispiele

Hörbuch-Vertonung

Podcast

Spiel-Dialog

Sprachassistent

Tipps für die besten Ergebnisse

Die Leistung von S2 — Benchmark-Ergebnisse

80 Sprachen

Open Source

Erste Schritte

FAQ

Erstelle Stimmen, die echt wirken

Last Updates

Verwendung eines AI Voice Changers — Komplette Anleitung für Content Creator

So reichen Sie eine DMCA-Anfrage bei Fish Audio ein

Creator Spotlight: Nick — Gameplay in etwas Markantes verwandeln

Recommended

Wir haben unser TTS im Blindtest gegen alle großen Wettbewerber getestet. Hier sind die Ergebnisse.

Podcast-Transkriptionstool — So transkribieren Sie Ihren Podcast mit Fish Audio

Bestes KI-TTS für Kreativteams! Der Fish Audio Team-Plan erklärt

Fish Audio veröffentlicht S2 als Open-Source: Fein abgestimmte Steuerung trifft auf produktionsreifes Streaming

Schritt-für-Schritt-Anleitung: So nutzen Sie SAM Audio für die Audiotrennung

Launch von Fish Audio S1: Ein bahnbrechendes Audio-Basismodell für Text-to-Speech