如何在 Fish Audio S2 中使用行内标签
Fish Audio S2 支持行内标签——放在方括号中的简短自然语言指令,可插入文本的任何位置,用于控制语音的表达方式。本指南将介绍支持的标签、使用方法以及获得最佳效果的技巧。
基本语法
将标签放在紧邻受影响词语或短语之前的方括号中:
The door was open. [whispering] I didn't want to go inside.
标签可以放置在文本的任何位置,您可以在单次生成中使用多个标签。
推荐标签
S2 接受自由形式的自然语言标签——您不局限于固定列表。尽管如此,下面的标签经过充分测试,效果始终稳健。您可以将它们作为起点,或者编写自己的描述(例如 [speaking slowly, almost hesitant])进行更精确的控制。
呼吸与发声反应
| 标签 | 描述 |
|---|---|
[clears throat] | 说话前的清嗓子声 |
[inhalation] / [inhale] | 明显的吸气声 |
[exhale] | 明显的呼气声 |
[sigh] | 富有表现力的叹息 |
[panting] | 沉重、急促的呼吸 |
[breathing] | 一般的呼吸声 |
[gasp] | 突然的抽气/吸气声 |
人声效果
| 标签 | 描述 |
|---|---|
[groan] | 不适或恼火的低沉呻吟 |
[moaning] | 痛苦或不满的持续发声 |
[sobbing] | 抽泣 |
[crying] | 声音中带有哭腔 |
[laughing] | 大笑 |
[chuckling] | 轻声笑 |
[giggle] | 咯咯笑 |
语速/停顿
| 标签 | 描述 |
|---|---|
[pause] | 短暂停顿 |
[short pause] | 较短的停顿 |
[long pause] | 为了戏剧效果的长停顿 |
声音风格
| 标签 | 描述 |
|---|---|
[whispering] / [whispering voice] | 低语、带有气声的表达 |
[soft voice] | 轻柔而温和 |
[low voice] | 较低沉的音域 |
[loud voice] | 提高音量 |
[shouting] | 大声喊叫 |
情感
| 标签 | 描述 |
|---|---|
[excited] | 高能量、欢快 |
[angry] | 严厉、强有力的语气 |
[sad] | 沉重、沮丧的表达 |
其他
| 标签 | 描述 |
|---|---|
[emphasis] | 强调后续词语或短语 |
[rustling sound] | 背景摩擦/沙沙声 |
放置位置
标签会影响其后面的内容。请将标签放在您希望发生转变的位置。
推荐方式 — 标签置于转折点:
I thought everything was fine. [whispering] Then I heard the noise.
效果欠佳 — 标签过早:
[whispering] I thought everything was fine. Then I heard the noise.
在这种情况下,整段文字都会以低语方式呈现,包括第一句。
组合标签
您可以在一段文字中串联多个标签,以产生语气的转变:
[soft voice] I wasn't sure what to say. [long pause] [loud voice] But then it hit me.
发声反应标签可以放置在句子之间,使过渡更自然:
That was the third time this week. [sigh] I really need to fix that.
多角色对话
S2 支持多角色、多轮对话生成,并可为每位说话人进行行内标签控制。多角色功能即将上线 Fish Audio 体验区和 API —— 敬请期待。
建议
从简单开始。 一个恰到好处的 [whispering] 或 [sigh] 就能改变整个段落。您不需要在每句话都加标签。
利用停顿控制节奏。 [pause] 和 [long pause] 是使语音感觉自然的最有用标签之一,特别是在情感转变之前。
让反应承载情感。 不要只依赖情感标签,尝试结合发声反应:[sigh] [sad] I just don't know anymore. 叹息声能让情感更有实感。
测试并迭代。 不同的声音对标签的反应强度可能不同。如果某个标签感觉太微弱,尝试通过周围文本的语境来加强它。
链接
- Demo → fish.audio
- GitHub → github.com/fishaudio/fish-speech
- HuggingFace → huggingface.co/fishaudio/s2-pro

Kyle is a Founding Engineer at Fish Audio and UC Berkeley Computer Scientist and Physicist. He builds scalable voice systems and grew Fish into the #1 global AI text-to-speech platform. Outside of startups, he has climbed 1345 trees so far around the Bay Area. Find his irresistibly clouty thoughts on X at @kile_sway.
阅读Kyle Cui的更多内容
