Verwendung von Inline-Tags in Fish Audio S2
Fish Audio S2 unterstützt Inline-Tags – kurze Hinweise in natürlicher Sprache, die in eckigen Klammern an einer beliebigen Stelle in Ihrem Text platziert werden, um die Sprechweise zu steuern. Dieser Leitfaden behandelt die unterstützten Tags, deren Verwendung sowie Tipps für optimale Ergebnisse.
Grundlegende Syntax
Setzen Sie einen Tag in eckigen Klammern unmittelbar vor das Wort oder die Phrase, die beeinflusst werden soll:
The door was open. [whispering] I didn't want to go inside.
Tags können an jeder Stelle im Text platziert werden, und Sie können mehrere Tags in einer einzigen Generierung verwenden.
Empfohlene Tags
S2 akzeptiert frei formulierte Tags in natürlicher Sprache – Sie sind nicht auf eine feste Liste beschränkt. Dennoch sind die unten aufgeführten Tags gut getestet und liefern konsistent starke Ergebnisse. Nutzen Sie diese als Ausgangspunkt oder schreiben Sie eigene Beschreibungen (z. B. [speaking slowly, almost hesitant]) für eine spezifischere Steuerung.
Atmung & vokale Reaktionen
| Tag | Beschreibung |
|---|---|
[clears throat] | Räuspern vor dem Sprechen |
[inhalation] / [inhale] | Hörbares Einatmen |
[exhale] | Hörbares Ausatmen |
[sigh] | Ausdrucksstarker Seufzer |
[panting] | Schweres, schnelles Atmen |
[breathing] | Allgemeines hörbares Atmen |
[gasp] | Scharfes, plötzliches Lufteinziehen |
Vokale Klänge
| Tag | Beschreibung |
|---|---|
[groan] | Leises Geräusch von Unbehagen oder Verzweiflung |
[moaning] | Längeres vokales Geräusch von Schmerz oder Missfallen |
[sobbing] | Schluchzen mit krampfhaftem Atem |
[crying] | Hörbare Tränen in der Stimme |
[laughing] | Volles Lachen |
[chuckling] | Sanftes, leises Lachen |
[giggle] | Leichtes, hohes Kichern |
Tempo & Pausen
| Tag | Beschreibung |
|---|---|
[pause] | Kurze Stille |
[short pause] | Kürzerer Moment |
[long pause] | Verlängerte Stille für dramatischen Effekt |
Stimmstil
| Tag | Beschreibung |
|---|---|
[whispering] / [whispering voice] | Geflüsterte, hauchige Wiedergabe |
[soft voice] | Leise und sanft |
[low voice] | Tieferes Register |
[loud voice] | Erhöhte Lautstärke |
[shouting] | Schreien in voller Lautstärke |
Emotion
| Tag | Beschreibung |
|---|---|
[excited] | Hochenergetisch, fröhlich |
[angry] | Harter, energischer Tonfall |
[sad] | Schwere, niedergeschlagene Wiedergabe |
Sonstiges
| Tag | Beschreibung |
|---|---|
[emphasis] | Betonung des folgenden Wortes oder der folgenden Phrase |
[rustling sound] | Raschelndes Hintergrundgeräusch |
Platzierung
Tags beeinflussen das, was nach ihnen kommt. Platzieren Sie den Tag direkt vor dem Punkt, an dem der Wechsel stattfinden soll.
Gut — Tag am Übergangspunkt:
I thought everything was fine. [whispering] Then I heard the noise.
Weniger effektiv — Tag zu früh:
[whispering] I thought everything was fine. Then I heard the noise.
In diesem Fall wird die gesamte Passage geflüstert, einschließlich des ersten Satzes.
Kombination von Tags
Sie können mehrere Tags in einer Passage aneinanderreihen, um Wechsel in der Wiedergabe zu erzeugen:
[soft voice] I wasn't sure what to say. [long pause] [loud voice] But then it hit me.
Vokalreaktions-Tags können zwischen Sätzen platziert werden, um natürliche Übergänge zu schaffen:
That was the third time this week. [sigh] I really need to fix that.
Multi-Sprecher-Dialoge
S2 unterstützt die Generierung mit mehreren Sprechern und mehreren Durchgängen mit individueller Inline-Tag-Steuerung pro Sprecher. Multi-Sprecher-Support kommt bald für das Fish Audio Playground und die API – bleiben Sie gespannt.
Tipps
Fangen Sie einfach an. Ein einzelnes, gut platziertes [whispering] oder [sigh] kann eine Passage verwandeln. Sie benötigen nicht in jedem Satz einen Tag.
Nutzen Sie Pausen für das Tempo. [pause] und [long pause] gehören zu den nützlichsten Tags, um Sprache natürlich wirken zu lassen, insbesondere vor emotionalen Wechseln.
Lassen Sie Reaktionen Emotionen tragen. Anstatt sich nur auf Emotions-Tags zu verlassen, versuchen Sie, diese mit Reaktionen zu kombinieren: [sigh] [sad] Ich weiß einfach nicht mehr weiter. Der Seufzer macht die Emotion physisch greifbar.
Testen und iterieren. Verschiedene Stimmen können auf Tags mit unterschiedlicher Intensität reagieren. Wenn ein Tag zu subtil wirkt, versuchen Sie, ihn durch den Kontext im umgebenden Text zu verstärken.
Links
- Demo → fish.audio
- GitHub → github.com/fishaudio/fish-speech
- HuggingFace → huggingface.co/fishaudio/s2-pro

Kyle is a Founding Engineer at Fish Audio and UC Berkeley Computer Scientist and Physicist. He builds scalable voice systems and grew Fish into the #1 global AI text-to-speech platform. Outside of startups, he has climbed 1345 trees so far around the Bay Area. Find his irresistibly clouty thoughts on X at @kile_sway.
Mehr von Kyle Cui lesen