Cómo usar etiquetas integradas (Inline Tags) en Fish Audio S2
10 mar 2026
Fish Audio S2 admite etiquetas integradas (inline tags), que son breves indicaciones en lenguaje natural colocadas entre corchetes en cualquier parte del texto, para controlar la forma en que se emite el habla. Esta guía explica las etiquetas compatibles, cómo usarlas y consejos para obtener los mejores resultados.
Sintaxis básica
Coloque una etiqueta entre corchetes inmediatamente antes de la palabra o frase a la que deba afectar:
The door was open. [whispering] I didn't want to go inside.
Las etiquetas pueden colocarse en cualquier posición del texto y puede utilizar varias etiquetas en una sola generación.
Etiquetas recomendadas
S2 acepta etiquetas en lenguaje natural de forma libre; no está limitado a una lista fija. Dicho esto, las etiquetas que aparecen a continuación han sido probadas y ofrecen resultados consistentemente sólidos. Úselas como punto de partida o escriba sus propias descripciones (por ejemplo, [speaking slowly, almost hesitant]) para un control más específico.
Respiración y reacciones vocales
| Etiqueta | Descripción |
|---|---|
[clears throat] | Sonido de carraspeo antes de hablar |
[inhalation] / [inhale] | Inspiración audible |
[exhale] | Exhalación audible |
[sigh] | Suspiro expresivo |
[panting] | Respiración pesada y rápida |
[breathing] | Respiración audible general |
[gasp] | Inhalación de aire repentina y brusca |
Sonidos vocales
| Etiqueta | Descripción |
|---|---|
[groan] | Sonido bajo de malestar o exasperación |
[moaning] | Sonido vocal prolongado de dolor o disgusto |
[sobbing] | Llanto con respiraciones convulsivas |
[crying] | Lágrimas audibles en la voz |
[laughing] | Risa completa |
[chuckling] | Risa suave y silenciosa |
[giggle] | Risa ligera y aguda |
Ritmo
| Etiqueta | Descripción |
|---|---|
[pause] | Silencio breve |
[short pause] | Pausa más corta |
[long pause] | Silencio prolongado para efecto dramático |
Estilo de voz
| Etiqueta | Descripción |
|---|---|
[whispering] / [whispering voice] | Locución susurrada y jadeante |
[soft voice] | Silenciosa y suave |
[low voice] | Registro más profundo y de tono bajo |
[loud voice] | Volumen elevado |
[shouting] | Gritos a pleno volumen |
Emoción
| Etiqueta | Descripción |
|---|---|
[excited] | Energía alta, optimista |
[angry] | Tono duro y contundente |
[sad] | Locución pesada y abatida |
Otros
| Etiqueta | Descripción |
|---|---|
[emphasis] | Énfasis en la siguiente palabra o frase |
[rustling sound] | Ruido de crujido de fondo |
Colocación
Las etiquetas afectan a lo que viene después de ellas. Coloque la etiqueta justo antes del punto donde desea que ocurra el cambio.
Bien — etiqueta en el punto de transición:
I thought everything was fine. [whispering] Then I heard the noise.
Menos eficaz — etiqueta demasiado pronto:
[whispering] I thought everything was fine. Then I heard the noise.
En este caso, todo el pasaje se susurrará, incluida la primera frase.
Combinación de etiquetas
Puede encadenar varias etiquetas a lo largo de un pasaje para crear cambios en la locución:
[soft voice] I wasn't sure what to say. [long pause] [loud voice] But then it hit me.
Las etiquetas de reacción vocal pueden colocarse entre frases para lograr transiciones que suenen naturales:
That was the third time this week. [sigh] I really need to fix that.
Diálogo multihablante
S2 admite la generación de diálogos con varios hablantes y varios turnos, con control de etiquetas integradas por cada hablante. La función multi-speaker llegará pronto al playground y a la API de Fish Audio; manténgase atento.
Consejos
Empiece de forma sencilla. Un solo [whispering] o [sigh] bien colocado puede transformar un pasaje. No necesita una etiqueta en cada frase.
Use pausas para el ritmo. [pause] y [long pause] se encuentran entre las etiquetas más útiles para que el habla parezca natural, especialmente antes de cambios emocionales.
Deje que las reacciones transmitan la emoción. En lugar de confiar solo en las etiquetas de emoción, intente combinarlas con reacciones: [sigh] [sad] I just don't know anymore. El suspiro asienta la emoción físicamente.
Pruebe e itere. Diferentes voces pueden responder a las etiquetas con distinta intensidad. Si una etiqueta le parece demasiado sutil, intente reforzarla con contexto en el texto circundante.
Enlaces
- Demo → fish.audio
- GitHub → github.com/fishaudio/fish-speech
- HuggingFace → huggingface.co/fishaudio/s2-pro


