AI translatedPortuguêsEnglish

Como Usar Inline Tags no Fish Audio S2

10 de mar. de 2026

Como Usar Inline Tags no Fish Audio S2

O Fish Audio S2 suporta inline tags — pequenas pistas em linguagem natural inseridas entre colchetes em qualquer parte do texto — para controlar a forma como a fala é gerada. Este guia aborda as tags suportadas, como utilizá-las e dicas para obter os melhores resultados.


Sintaxe Básica

Coloque uma tag entre colchetes imediatamente antes da palavra ou frase que ela deve afetar:

The door was open. [whispering] I didn't want to go inside.

Tags podem ser colocadas em qualquer posição no texto, e você pode usar várias tags em uma única geração.


Tags Recomendadas

O S2 aceita tags de linguagem natural de forma livre — você não está limitado a uma lista fixa. No entanto, as tags abaixo foram bem testadas e produzem resultados consistentemente sólidos. Use-as como pontos de partida ou escreva suas próprias descrições (por exemplo, [speaking slowly, almost hesitant]) para um controle mais específico.

Respiração e Reações Vocais

TagDescrição
[clears throat]Som de pigarro antes de falar
[inhalation] / [inhale]Inspiração audível
[exhale]Expiração audível
[sigh]Suspiro expressivo
[panting]Respiração ofegante e rápida
[breathing]Respiração audível geral
[gasp]Inspiração de ar súbita e brusca

Sons Vocais

TagDescrição
[groan]Som baixo de desconforto ou exasperação
[moaning]Som vocal prolongado de dor ou lamento
[sobbing]Choro convulsivo
[crying]Lágrimas audíveis na voz
[laughing]Risada completa
[chuckling]Risada suave e contida
[giggle]Risadinha leve e aguda

Ritmo

TagDescrição
[pause]Silêncio breve
[short pause]Pausa curta
[long pause]Silêncio prolongado para efeito dramático

Estilo de Voz

TagDescrição
[whispering] / [whispering voice]Entrega sussurrada e soprosa
[soft voice]Voz baixa e gentil
[low voice]Registro mais grave e profundo
[loud voice]Volume elevado
[shouting]Grito em volume máximo

Emoção

TagDescrição
[excited]Alta energia, animado
[angry]Tom áspero e forçado
[sad]Entrega pesada e desanimada

Outros

TagDescrição
[emphasis]Ênfase na palavra ou frase seguinte
[rustling sound]Ruído de farfalhar ao fundo

Posicionamento

As tags afetam o que vem depois delas. Posicione a tag logo antes do ponto onde você deseja que a mudança ocorra.

Bom — tag no ponto de transição:

I thought everything was fine. [whispering] Then I heard the noise.

Menos eficaz — tag muito cedo:

[whispering] I thought everything was fine. Then I heard the noise.

Neste caso, todo o trecho será sussurrado, incluindo a primeira frase.


Combinando Tags

Você pode encadear várias tags ao longo de um trecho para criar mudanças na entrega:

[soft voice] I wasn't sure what to say. [long pause] [loud voice] But then it hit me.

Tags de reação vocal podem ser colocadas entre frases para transições com som natural:

That was the third time this week. [sigh] I really need to fix that.

Diálogo com Múltiplos Falantes

O S2 suporta geração com múltiplos falantes e turnos, com controle de inline tags por falante. O recurso de múltiplos falantes chegará em breve ao playground e à API do Fish Audio — fique atento.


Dicas

Comece simples. Uma única [whispering] ou [sigh] bem posicionada pode transformar um trecho. Você não precisa de uma tag em cada frase.

Use pausas para o ritmo. [pause] e [long pause] estão entre as tags mais úteis para fazer a fala parecer natural, especialmente antes de mudanças emocionais.

Deixe as reações carregarem a emoção. Em vez de confiar apenas em tags de emoção, tente combinar com reações: [sigh] [sad] Eu simplesmente não sei mais. O suspiro fundamenta a emoção fisicamente.

Teste e itere. Diferentes vozes podem responder às tags com intensidades variadas. Se uma tag parecer muito sutil, tente reforçá-la com contexto no texto ao redor.


Crie vozes que parecem reais

Comece a gerar áudio da mais alta qualidade hoje.

Já tem uma conta? Entrar

Compartilhar este artigo


Kyle Cui

Kyle CuiX

Kyle is a Founding Engineer at Fish Audio and UC Berkeley Computer Scientist and Physicist. He builds scalable voice systems and grew Fish into the #1 global AI text-to-speech platform. Outside of startups, he has climbed 1345 trees so far around the Bay Area. Find his irresistibly clouty thoughts on X at @kile_sway.

Leia mais de Kyle Cui >

Artigos Recentes

Ver tudo >