Fish Audio S2에서 인라인 태그 사용하는 방법
2026년 3월 10일
Fish Audio S2는 텍스트 어느 곳에나 대괄호 안에 넣는 짧은 자연어 큐인 인라인 태그를 지원하여 음성 출력 방식을 제어할 수 있게 해줍니다. 이 가이드에서는 지원되는 태그, 사용 방법 및 최상의 결과를 얻기 위한 팁을 다룹니다.
기본 구문
영향을 주고 싶은 단어나 구절 바로 앞에 대괄호로 태그를 배치하세요:
The door was open. [whispering] I didn't want to go inside.
태그는 텍스트의 어느 위치에나 배치할 수 있으며, 한 번의 생성에서 여러 태그를 사용할 수 있습니다.
권장 태그
S2는 자유 형식의 자연어 태그를 수용하므로 고정된 목록에 제한되지 않습니다. 그럼에도 불구하고, 아래 태그들은 충분히 테스트되었으며 일관되게 강력한 결과를 생성합니다. 이를 시작점으로 사용하거나 더 구체적인 제어를 위해 자신만의 설명(예: [speaking slowly, almost hesitant])을 작성해 보세요.
호흡 및 음성 반응
| 태그 | 설명 |
|---|---|
[clears throat] | 말하기 전 목을 가다듬는 소리 |
[inhalation] / [inhale] | 들리는 숨을 들이마시는 소리 |
[exhale] | 들리는 숨을 내뱉는 소리 |
[sigh] | 표현력이 풍부한 한숨 |
[panting] | 거칠고 빠른 호흡 |
[breathing] | 일반적인 호흡 소리 |
[gasp] | 날카롭고 갑작스럽게 숨을 들이킴 |
음성 소리
| 태그 | 설명 |
|---|---|
[groan] | 불편함이나 짜증 섞인 낮은 소리 |
[moaning] | 고통이나 불쾌함을 나타내는 길게 끄는 소리 |
[sobbing] | 흐느끼며 우는 소리 |
[crying] | 목소리에 실린 눈물 섞인 소리 |
[laughing] | 크게 웃는 소리 |
[chuckling] | 부드럽고 조용한 웃음 |
[giggle] | 가볍고 높은 톤의 웃음 |
속도 조절
| 태그 | 설명 |
|---|---|
[pause] | 짧은 침묵 |
[short pause] | 더 짧은 멈춤 |
[long pause] | 극적인 효과를 위한 긴 침묵 |
목소리 스타일
| 태그 | 설명 |
|---|---|
[whispering] / [whispering voice] | 속삭이는 듯한 호흡 섞인 전달 |
[soft voice] | 조용하고 부드러움 |
[low voice] | 더 깊고 낮은 음역대 |
[loud voice] | 높아진 볼륨 |
[shouting] | 큰 소리로 외침 |
감정
| 태그 | 설명 |
|---|---|
[excited] | 에너지가 넘치고 밝은 톤 |
[angry] | 거칠고 강압적인 톤 |
[sad] | 무겁고 침울한 전달 |
기타
| 태그 | 설명 |
|---|---|
[emphasis] | 이어지는 단어나 구절 강조 |
[rustling sound] | 배경에서 부스럭거리는 소리 |
배치
태그는 태그 이후에 오는 내용에 영향을 줍니다. 변화가 일어나기를 원하는 시점 바로 앞에 태그를 배치하세요.
좋은 예 — 전환 지점에 태그 배치:
I thought everything was fine. [whispering] Then I heard the noise.
덜 효과적인 예 — 너무 일찍 배치된 태그:
[whispering] I thought everything was fine. Then I heard the noise.
이 경우 첫 번째 문장을 포함하여 전체 문절이 속삭이듯 표현됩니다.
태그 조합하기
한 문절 내에서 여러 태그를 연결하여 전달 방식의 변화를 줄 수 있습니다:
[soft voice] I wasn't sure what to say. [long pause] [loud voice] But then it hit me.
음성 반응 태그를 문장 사이에 배치하여 자연스러운 전환을 연출할 수 있습니다:
That was the third time this week. [sigh] I really need to fix that.
다중 화자 대화
S2는 화자별 인라인 태그 제어를 통한 다중 화자, 다중 턴 생성을 지원합니다. 다중 화자 기능은 곧 Fish Audio 플레이그라운드와 API에 추가될 예정이니 기대해 주세요.
팁
단순하게 시작하세요. 적절히 배치된 하나의 [whispering]이나 [sigh]가 문절을 완전히 바꿀 수 있습니다. 모든 문장에 태그를 넣을 필요는 없습니다.
속도 조절을 위해 일시 정지를 활용하세요. [pause]와 [long pause]는 특히 감정 변화 직전에 음성을 자연스럽게 만드는 데 가장 유용한 태그 중 하나입니다.
반응을 통해 감정을 전달하세요. 감정 태그에만 의존하기보다 반응과 조합해 보세요: [sigh] [sad] 이제 더 이상 모르겠어. 한숨이 감정을 물리적으로 뒷받침해 줍니다.
테스트하고 반복하세요. 목소리마다 태그에 반응하는 강도가 다를 수 있습니다. 태그 효과가 너무 미미하다면 주변 텍스트의 문맥을 통해 이를 강화해 보세요.
링크
- 데모 → fish.audio
- GitHub → github.com/fishaudio/fish-speech
- HuggingFace → huggingface.co/fishaudio/s2-pro

