Como Usar Inline Tags no Fish Audio S2
10 de mar. de 2026
O Fish Audio S2 suporta inline tags — pequenas pistas em linguagem natural inseridas entre colchetes em qualquer parte do texto — para controlar a forma como a fala é gerada. Este guia aborda as tags suportadas, como utilizá-las e dicas para obter os melhores resultados.
Sintaxe Básica
Coloque uma tag entre colchetes imediatamente antes da palavra ou frase que ela deve afetar:
The door was open. [whispering] I didn't want to go inside.
Tags podem ser colocadas em qualquer posição no texto, e você pode usar várias tags em uma única geração.
Tags Recomendadas
O S2 aceita tags de linguagem natural de forma livre — você não está limitado a uma lista fixa. No entanto, as tags abaixo foram bem testadas e produzem resultados consistentemente sólidos. Use-as como pontos de partida ou escreva suas próprias descrições (por exemplo, [speaking slowly, almost hesitant]) para um controle mais específico.
Respiração e Reações Vocais
| Tag | Descrição |
|---|---|
[clears throat] | Som de pigarro antes de falar |
[inhalation] / [inhale] | Inspiração audível |
[exhale] | Expiração audível |
[sigh] | Suspiro expressivo |
[panting] | Respiração ofegante e rápida |
[breathing] | Respiração audível geral |
[gasp] | Inspiração de ar súbita e brusca |
Sons Vocais
| Tag | Descrição |
|---|---|
[groan] | Som baixo de desconforto ou exasperação |
[moaning] | Som vocal prolongado de dor ou lamento |
[sobbing] | Choro convulsivo |
[crying] | Lágrimas audíveis na voz |
[laughing] | Risada completa |
[chuckling] | Risada suave e contida |
[giggle] | Risadinha leve e aguda |
Ritmo
| Tag | Descrição |
|---|---|
[pause] | Silêncio breve |
[short pause] | Pausa curta |
[long pause] | Silêncio prolongado para efeito dramático |
Estilo de Voz
| Tag | Descrição |
|---|---|
[whispering] / [whispering voice] | Entrega sussurrada e soprosa |
[soft voice] | Voz baixa e gentil |
[low voice] | Registro mais grave e profundo |
[loud voice] | Volume elevado |
[shouting] | Grito em volume máximo |
Emoção
| Tag | Descrição |
|---|---|
[excited] | Alta energia, animado |
[angry] | Tom áspero e forçado |
[sad] | Entrega pesada e desanimada |
Outros
| Tag | Descrição |
|---|---|
[emphasis] | Ênfase na palavra ou frase seguinte |
[rustling sound] | Ruído de farfalhar ao fundo |
Posicionamento
As tags afetam o que vem depois delas. Posicione a tag logo antes do ponto onde você deseja que a mudança ocorra.
Bom — tag no ponto de transição:
I thought everything was fine. [whispering] Then I heard the noise.
Menos eficaz — tag muito cedo:
[whispering] I thought everything was fine. Then I heard the noise.
Neste caso, todo o trecho será sussurrado, incluindo a primeira frase.
Combinando Tags
Você pode encadear várias tags ao longo de um trecho para criar mudanças na entrega:
[soft voice] I wasn't sure what to say. [long pause] [loud voice] But then it hit me.
Tags de reação vocal podem ser colocadas entre frases para transições com som natural:
That was the third time this week. [sigh] I really need to fix that.
Diálogo com Múltiplos Falantes
O S2 suporta geração com múltiplos falantes e turnos, com controle de inline tags por falante. O recurso de múltiplos falantes chegará em breve ao playground e à API do Fish Audio — fique atento.
Dicas
Comece simples. Uma única [whispering] ou [sigh] bem posicionada pode transformar um trecho. Você não precisa de uma tag em cada frase.
Use pausas para o ritmo. [pause] e [long pause] estão entre as tags mais úteis para fazer a fala parecer natural, especialmente antes de mudanças emocionais.
Deixe as reações carregarem a emoção. Em vez de confiar apenas em tags de emoção, tente combinar com reações: [sigh] [sad] Eu simplesmente não sei mais. O suspiro fundamenta a emoção fisicamente.
Teste e itere. Diferentes vozes podem responder às tags com intensidades variadas. Se uma tag parecer muito sutil, tente reforçá-la com contexto no texto ao redor.
Links
- Demo → fish.audio
- GitHub → github.com/fishaudio/fish-speech
- HuggingFace → huggingface.co/fishaudio/s2-pro


