10. März 2026Leitfaden

Verwendung von Inline-Tags in Fish Audio S2

Fish Audio S2 unterstützt Inline-Tags – kurze Hinweise in natürlicher Sprache, die in eckigen Klammern an einer beliebigen Stelle in Ihrem Text platziert werden, um die Sprechweise zu steuern. Dieser Leitfaden behandelt die unterstützten Tags, deren Verwendung sowie Tipps für optimale Ergebnisse.

Grundlegende Syntax

Setzen Sie einen Tag in eckigen Klammern unmittelbar vor das Wort oder die Phrase, die beeinflusst werden soll:

The door was open. [whispering] I didn't want to go inside.

Tags können an jeder Stelle im Text platziert werden, und Sie können mehrere Tags in einer einzigen Generierung verwenden.

Empfohlene Tags

S2 akzeptiert frei formulierte Tags in natürlicher Sprache – Sie sind nicht auf eine feste Liste beschränkt. Dennoch sind die unten aufgeführten Tags gut getestet und liefern konsistent starke Ergebnisse. Nutzen Sie diese als Ausgangspunkt oder schreiben Sie eigene Beschreibungen (z. B. [speaking slowly, almost hesitant]) für eine spezifischere Steuerung.

Atmung & vokale Reaktionen

Tag	Beschreibung
`[clears throat]`	Räuspern vor dem Sprechen
`[inhalation]` / `[inhale]`	Hörbares Einatmen
`[exhale]`	Hörbares Ausatmen
`[sigh]`	Ausdrucksstarker Seufzer
`[panting]`	Schweres, schnelles Atmen
`[breathing]`	Allgemeines hörbares Atmen
`[gasp]`	Scharfes, plötzliches Lufteinziehen

Vokale Klänge

Tag	Beschreibung
`[groan]`	Leises Geräusch von Unbehagen oder Verzweiflung
`[moaning]`	Längeres vokales Geräusch von Schmerz oder Missfallen
`[sobbing]`	Schluchzen mit krampfhaftem Atem
`[crying]`	Hörbare Tränen in der Stimme
`[laughing]`	Volles Lachen
`[chuckling]`	Sanftes, leises Lachen
`[giggle]`	Leichtes, hohes Kichern

Tempo & Pausen

Tag	Beschreibung
`[pause]`	Kurze Stille
`[short pause]`	Kürzerer Moment
`[long pause]`	Verlängerte Stille für dramatischen Effekt

Stimmstil

Tag	Beschreibung
`[whispering]` / `[whispering voice]`	Geflüsterte, hauchige Wiedergabe
`[soft voice]`	Leise und sanft
`[low voice]`	Tieferes Register
`[loud voice]`	Erhöhte Lautstärke
`[shouting]`	Schreien in voller Lautstärke

Emotion

Tag	Beschreibung
`[excited]`	Hochenergetisch, fröhlich
`[angry]`	Harter, energischer Tonfall
`[sad]`	Schwere, niedergeschlagene Wiedergabe

Sonstiges

Tag	Beschreibung
`[emphasis]`	Betonung des folgenden Wortes oder der folgenden Phrase
`[rustling sound]`	Raschelndes Hintergrundgeräusch

Platzierung

Tags beeinflussen das, was nach ihnen kommt. Platzieren Sie den Tag direkt vor dem Punkt, an dem der Wechsel stattfinden soll.

Gut — Tag am Übergangspunkt:

I thought everything was fine. [whispering] Then I heard the noise.

Weniger effektiv — Tag zu früh:

[whispering] I thought everything was fine. Then I heard the noise.

In diesem Fall wird die gesamte Passage geflüstert, einschließlich des ersten Satzes.

Kombination von Tags

Sie können mehrere Tags in einer Passage aneinanderreihen, um Wechsel in der Wiedergabe zu erzeugen:

[soft voice] I wasn't sure what to say. [long pause] [loud voice] But then it hit me.

Vokalreaktions-Tags können zwischen Sätzen platziert werden, um natürliche Übergänge zu schaffen:

That was the third time this week. [sigh] I really need to fix that.

Multi-Sprecher-Dialoge

S2 unterstützt die Generierung mit mehreren Sprechern und mehreren Durchgängen mit individueller Inline-Tag-Steuerung pro Sprecher. Multi-Sprecher-Support kommt bald für das Fish Audio Playground und die API – bleiben Sie gespannt.

Tipps

Fangen Sie einfach an. Ein einzelnes, gut platziertes [whispering] oder [sigh] kann eine Passage verwandeln. Sie benötigen nicht in jedem Satz einen Tag.

Nutzen Sie Pausen für das Tempo. [pause] und [long pause] gehören zu den nützlichsten Tags, um Sprache natürlich wirken zu lassen, insbesondere vor emotionalen Wechseln.

Lassen Sie Reaktionen Emotionen tragen. Anstatt sich nur auf Emotions-Tags zu verlassen, versuchen Sie, diese mit Reaktionen zu kombinieren: [sigh] [sad] Ich weiß einfach nicht mehr weiter. Der Seufzer macht die Emotion physisch greifbar.

Testen und iterieren. Verschiedene Stimmen können auf Tags mit unterschiedlicher Intensität reagieren. Wenn ein Tag zu subtil wirkt, versuchen Sie, ihn durch den Kontext im umgebenden Text zu verstärken.

Links

Demo → fish.audio
GitHub → github.com/fishaudio/fish-speech
HuggingFace → huggingface.co/fishaudio/s2-pro

Kyle Cui

Kyle is a Founding Engineer at Fish Audio and UC Berkeley Computer Scientist and Physicist. He builds scalable voice systems and grew Fish into the #1 global AI text-to-speech platform. Outside of startups, he has climbed 1345 trees so far around the Bay Area. Find his irresistibly clouty thoughts on X at @kile_sway.

Mehr von Kyle Cui lesen

Erstelle Stimmen, die echt wirken

Beginnen Sie noch heute mit der Erstellung von Audio in höchster Qualität.

Kostenlos anmelden

Haben Sie bereits ein Konto? Einloggen

Last Updates

27. Juli 2026Unternehmen

5 Modelle, 22 Personen, 1 Jahr

Rissa CaoCEO

Wie wir S2.1 Pro kostenlos gemacht haben – Neuaufbau des Inference-Stacks von Grund auf

23. Juli 2026Forschung

Wie wir unsere Text-zu-Sprache-API kostenlos gemacht haben: Das Inference Engineering hinter S2.1 Pro

Shijia LiaoChief Scientist

20. Juli 2026Creator Spotlight

Alex Lee: Using AI Voice to Build More Human Characters

Fish Audio CommunityFish Audio Community Team

Verwendung von Inline-Tags in Fish Audio S2

Grundlegende Syntax

Empfohlene Tags

Atmung & vokale Reaktionen

Vokale Klänge

Tempo & Pausen

Stimmstil

Emotion

Sonstiges

Platzierung

Kombination von Tags

Multi-Sprecher-Dialoge

Tipps

Links

Erstelle Stimmen, die echt wirken

Last Updates

5 Modelle, 22 Personen, 1 Jahr

Wie wir unsere Text-zu-Sprache-API kostenlos gemacht haben: Das Inference Engineering hinter S2.1 Pro

Alex Lee: Using AI Voice to Build More Human Characters

Recommended

5 Modelle, 22 Personen, 1 Jahr

Wie wir unsere Text-zu-Sprache-API kostenlos gemacht haben: Das Inference Engineering hinter S2.1 Pro

Fish Audio S2.1 Pro: Kostenlose Text-to-Speech API für Entwickler

Professionelles Voice Cloning: Ein verifizierter Klon Ihrer Stimme in Studioqualität

AI Voice Design: Erstellen Sie eine individuelle Stimme aus einem einfachen Text-Prompt

Wir haben unser TTS im Blindtest gegen alle großen Wettbewerber getestet. Hier sind die Ergebnisse.