Как использовать встроенные теги в Fish Audio S2
10 мар. 2026 г.
Fish Audio S2 поддерживает встроенные теги — короткие подсказки на естественном языке, заключенные в квадратные скобки, которые можно размещать в любом месте текста для управления тем, как воспроизводится речь. В этом руководстве рассматриваются поддерживаемые теги, способы их использования и советы по достижению наилучших результатов.
Базовый синтаксис
Поместите тег в квадратные скобки непосредственно перед словом или фразой, на которые он должен повлиять:
The door was open. [whispering] I didn't want to go inside.
Теги можно размещать в любом месте текста, и вы можете использовать несколько тегов в одной генерации.
Рекомендуемые теги
S2 принимает теги на естественном языке в свободной форме — вы не ограничены фиксированным списком. Тем не менее, приведенные ниже теги хорошо протестированы и дают стабильно высокие результаты. Используйте их в качестве отправных точек или создавайте свои собственные описания (например, [speaking slowly, almost hesitant]) для более точного контроля.
Дыхание и вокальные реакции
| Тег | Описание |
|---|---|
[clears throat] | Звук прочистки горла перед речью |
[inhalation] / [inhale] | Слышимый вдох |
[exhale] | Слышимый выдох |
[sigh] | Выразительный вздох |
[panting] | Тяжелое, частое дыхание |
[breathing] | Общее слышимое дыхание |
[gasp] | Резкий, внезапный вдох |
Вокальные звуки
| Тег | Описание |
|---|---|
[groan] | Низкий звук дискомфорта или раздражения |
[moaning] | Протяжный вокальный звук боли или недовольства |
[sobbing] | Рыдания с судорожными вдохами |
[crying] | Слышимый плач в голосе |
[laughing] | Полноценный смех |
[chuckling] | Мягкий, тихий смешок |
[giggle] | Легкий, тонкий смех |
Темп
| Тег | Описание |
|---|---|
[pause] | Короткая пауза |
[short pause] | Более короткая пауза |
[long pause] | Продолжительная тишина для драматического эффекта |
Стиль голоса
| Тег | Описание |
|---|---|
[whispering] / [whispering voice] | Тихая, приглушенная манера речи с придыханием |
[soft voice] | Тихий и нежный голос |
[low voice] | Более глубокий, низкий регистр |
[loud voice] | Повышенная громкость |
[shouting] | Крик на полной громкости |
Эмоции
| Тег | Описание |
|---|---|
[excited] | Высокая энергия, воодушевление |
[angry] | Резкий, властный тон |
[sad] | Тяжелая, удрученная манера речи |
Другое
| Тег | Описание |
|---|---|
[emphasis] | Акцент на следующем слове или фразе |
[rustling sound] | Фоновый шорох |
Размещение
Теги влияют на то, что идет после них. Разместите тег непосредственно перед тем местом, где должен произойти переход.
Хорошо — тег в точке перехода:
I thought everything was fine. [whispering] Then I heard the noise.
Менее эффективно — тег слишком рано:
[whispering] I thought everything was fine. Then I heard the noise.
В этом случае весь отрывок будет произнесен шепотом, включая первое предложение.
Сочетание тегов
Вы можете объединять несколько тегов в цепочку, чтобы создавать изменения в манере речи:
[soft voice] I wasn't sure what to say. [long pause] [loud voice] But then it hit me.
Теги вокальных реакций можно размещать между предложениями для естественных переходов:
That was the third time this week. [sigh] I really need to fix that.
Многопользовательские диалоги
S2 поддерживает генерацию диалогов с участием нескольких дикторов с индивидуальным управлением встроенными тегами для каждого. Функция multi-speaker скоро появится в Fish Audio playground и API — следите за обновлениями.
Советы
Начните с малого. Один удачно расположенный тег [whispering] или [sigh] может преобразить весь отрывок. Вам не нужно ставить тег в каждом предложении.
Используйте паузы для управления темпом. [pause] и [long pause] — одни из самых полезных тегов для придания речи естественности, особенно перед эмоциональными переходами.
Пусть реакции выражают эмоции. Вместо того чтобы полагаться только на теги эмоций, попробуйте сочетать их с реакциями: [sigh] [sad] I just don't know anymore. Вздох физически обосновывает эмоцию.
Тестируйте и повторяйте. Разные голоса могут реагировать на теги с разной интенсивностью. Если действие тега кажется слишком слабым, попробуйте усилить его контекстом в окружающем тексте.
Ссылки
- Демо → fish.audio
- GitHub → github.com/fishaudio/fish-speech
- HuggingFace → huggingface.co/fishaudio/s2-pro


