Как использовать встроенные теги в Fish Audio S2

10 мар. 2026 г.

Kyle CuiKyle Cui, AI Systems Engineer
РУКОВОДСТВО
Как использовать встроенные теги в Fish Audio S2

Fish Audio S2 поддерживает встроенные теги — короткие подсказки на естественном языке, заключенные в квадратные скобки, которые можно размещать в любом месте текста для управления тем, как воспроизводится речь. В этом руководстве рассматриваются поддерживаемые теги, способы их использования и советы по достижению наилучших результатов.


Базовый синтаксис

Поместите тег в квадратные скобки непосредственно перед словом или фразой, на которые он должен повлиять:

The door was open. [whispering] I didn't want to go inside.

Теги можно размещать в любом месте текста, и вы можете использовать несколько тегов в одной генерации.


Рекомендуемые теги

S2 принимает теги на естественном языке в свободной форме — вы не ограничены фиксированным списком. Тем не менее, приведенные ниже теги хорошо протестированы и дают стабильно высокие результаты. Используйте их в качестве отправных точек или создавайте свои собственные описания (например, [speaking slowly, almost hesitant]) для более точного контроля.

Дыхание и вокальные реакции

ТегОписание
[clears throat]Звук прочистки горла перед речью
[inhalation] / [inhale]Слышимый вдох
[exhale]Слышимый выдох
[sigh]Выразительный вздох
[panting]Тяжелое, частое дыхание
[breathing]Общее слышимое дыхание
[gasp]Резкий, внезапный вдох

Вокальные звуки

ТегОписание
[groan]Низкий звук дискомфорта или раздражения
[moaning]Протяжный вокальный звук боли или недовольства
[sobbing]Рыдания с судорожными вдохами
[crying]Слышимый плач в голосе
[laughing]Полноценный смех
[chuckling]Мягкий, тихий смешок
[giggle]Легкий, тонкий смех

Темп

ТегОписание
[pause]Короткая пауза
[short pause]Более короткая пауза
[long pause]Продолжительная тишина для драматического эффекта

Стиль голоса

ТегОписание
[whispering] / [whispering voice]Тихая, приглушенная манера речи с придыханием
[soft voice]Тихий и нежный голос
[low voice]Более глубокий, низкий регистр
[loud voice]Повышенная громкость
[shouting]Крик на полной громкости

Эмоции

ТегОписание
[excited]Высокая энергия, воодушевление
[angry]Резкий, властный тон
[sad]Тяжелая, удрученная манера речи

Другое

ТегОписание
[emphasis]Акцент на следующем слове или фразе
[rustling sound]Фоновый шорох

Размещение

Теги влияют на то, что идет после них. Разместите тег непосредственно перед тем местом, где должен произойти переход.

Хорошо — тег в точке перехода:

I thought everything was fine. [whispering] Then I heard the noise.

Менее эффективно — тег слишком рано:

[whispering] I thought everything was fine. Then I heard the noise.

В этом случае весь отрывок будет произнесен шепотом, включая первое предложение.


Сочетание тегов

Вы можете объединять несколько тегов в цепочку, чтобы создавать изменения в манере речи:

[soft voice] I wasn't sure what to say. [long pause] [loud voice] But then it hit me.

Теги вокальных реакций можно размещать между предложениями для естественных переходов:

That was the third time this week. [sigh] I really need to fix that.

Многопользовательские диалоги

S2 поддерживает генерацию диалогов с участием нескольких дикторов с индивидуальным управлением встроенными тегами для каждого. Функция multi-speaker скоро появится в Fish Audio playground и API — следите за обновлениями.


Советы

Начните с малого. Один удачно расположенный тег [whispering] или [sigh] может преобразить весь отрывок. Вам не нужно ставить тег в каждом предложении.

Используйте паузы для управления темпом. [pause] и [long pause] — одни из самых полезных тегов для придания речи естественности, особенно перед эмоциональными переходами.

Пусть реакции выражают эмоции. Вместо того чтобы полагаться только на теги эмоций, попробуйте сочетать их с реакциями: [sigh] [sad] I just don't know anymore. Вздох физически обосновывает эмоцию.

Тестируйте и повторяйте. Разные голоса могут реагировать на теги с разной интенсивностью. Если действие тега кажется слишком слабым, попробуйте усилить его контекстом в окружающем тексте.


Ссылки

Создавайте голоса, которые звучат естественно

Начните создавать аудио высочайшего качества уже сегодня.

Уже есть аккаунт? Войти

Поделиться этой статьей


Kyle Cui

Kyle CuiX

Kyle is a Founding Engineer at Fish Audio and UC Berkeley Computer Scientist and Physicist. He builds scalable voice systems and grew Fish into the #1 global AI text-to-speech platform. Outside of startups, he has climbed 1345 trees so far around the Bay Area. Find his irresistibly clouty thoughts on X at @kile_sway.

Читать больше от Kyle Cui >

Последние статьи

Показать все >