AI translated한국어English

Fish Audio S2에서 인라인 태그 사용하는 방법

2026년 3월 10일

Fish Audio S2에서 인라인 태그 사용하는 방법

Fish Audio S2는 텍스트 어느 곳에나 대괄호 안에 넣는 짧은 자연어 큐인 인라인 태그를 지원하여 음성 출력 방식을 제어할 수 있게 해줍니다. 이 가이드에서는 지원되는 태그, 사용 방법 및 최상의 결과를 얻기 위한 팁을 다룹니다.


기본 구문

영향을 주고 싶은 단어나 구절 바로 앞에 대괄호로 태그를 배치하세요:

The door was open. [whispering] I didn't want to go inside.

태그는 텍스트의 어느 위치에나 배치할 수 있으며, 한 번의 생성에서 여러 태그를 사용할 수 있습니다.


권장 태그

S2는 자유 형식의 자연어 태그를 수용하므로 고정된 목록에 제한되지 않습니다. 그럼에도 불구하고, 아래 태그들은 충분히 테스트되었으며 일관되게 강력한 결과를 생성합니다. 이를 시작점으로 사용하거나 더 구체적인 제어를 위해 자신만의 설명(예: [speaking slowly, almost hesitant])을 작성해 보세요.

호흡 및 음성 반응

태그설명
[clears throat]말하기 전 목을 가다듬는 소리
[inhalation] / [inhale]들리는 숨을 들이마시는 소리
[exhale]들리는 숨을 내뱉는 소리
[sigh]표현력이 풍부한 한숨
[panting]거칠고 빠른 호흡
[breathing]일반적인 호흡 소리
[gasp]날카롭고 갑작스럽게 숨을 들이킴

음성 소리

태그설명
[groan]불편함이나 짜증 섞인 낮은 소리
[moaning]고통이나 불쾌함을 나타내는 길게 끄는 소리
[sobbing]흐느끼며 우는 소리
[crying]목소리에 실린 눈물 섞인 소리
[laughing]크게 웃는 소리
[chuckling]부드럽고 조용한 웃음
[giggle]가볍고 높은 톤의 웃음

속도 조절

태그설명
[pause]짧은 침묵
[short pause]더 짧은 멈춤
[long pause]극적인 효과를 위한 긴 침묵

목소리 스타일

태그설명
[whispering] / [whispering voice]속삭이는 듯한 호흡 섞인 전달
[soft voice]조용하고 부드러움
[low voice]더 깊고 낮은 음역대
[loud voice]높아진 볼륨
[shouting]큰 소리로 외침

감정

태그설명
[excited]에너지가 넘치고 밝은 톤
[angry]거칠고 강압적인 톤
[sad]무겁고 침울한 전달

기타

태그설명
[emphasis]이어지는 단어나 구절 강조
[rustling sound]배경에서 부스럭거리는 소리

배치

태그는 태그 이후에 오는 내용에 영향을 줍니다. 변화가 일어나기를 원하는 시점 바로 앞에 태그를 배치하세요.

좋은 예 — 전환 지점에 태그 배치:

I thought everything was fine. [whispering] Then I heard the noise.

덜 효과적인 예 — 너무 일찍 배치된 태그:

[whispering] I thought everything was fine. Then I heard the noise.

이 경우 첫 번째 문장을 포함하여 전체 문절이 속삭이듯 표현됩니다.


태그 조합하기

한 문절 내에서 여러 태그를 연결하여 전달 방식의 변화를 줄 수 있습니다:

[soft voice] I wasn't sure what to say. [long pause] [loud voice] But then it hit me.

음성 반응 태그를 문장 사이에 배치하여 자연스러운 전환을 연출할 수 있습니다:

That was the third time this week. [sigh] I really need to fix that.

다중 화자 대화

S2는 화자별 인라인 태그 제어를 통한 다중 화자, 다중 턴 생성을 지원합니다. 다중 화자 기능은 곧 Fish Audio 플레이그라운드와 API에 추가될 예정이니 기대해 주세요.


단순하게 시작하세요. 적절히 배치된 하나의 [whispering]이나 [sigh]가 문절을 완전히 바꿀 수 있습니다. 모든 문장에 태그를 넣을 필요는 없습니다.

속도 조절을 위해 일시 정지를 활용하세요. [pause][long pause]는 특히 감정 변화 직전에 음성을 자연스럽게 만드는 데 가장 유용한 태그 중 하나입니다.

반응을 통해 감정을 전달하세요. 감정 태그에만 의존하기보다 반응과 조합해 보세요: [sigh] [sad] 이제 더 이상 모르겠어. 한숨이 감정을 물리적으로 뒷받침해 줍니다.

테스트하고 반복하세요. 목소리마다 태그에 반응하는 강도가 다를 수 있습니다. 태그 효과가 너무 미미하다면 주변 텍스트의 문맥을 통해 이를 강화해 보세요.


링크

실감 나는 목소리를 만들어보세요

오늘부터 최고 품질의 오디오를 생성하세요.

이미 계정이 있으신가요? 로그인

이 글 공유하기


Kyle Cui

Kyle CuiX

Kyle is a Founding Engineer at Fish Audio and UC Berkeley Computer Scientist and Physicist. He builds scalable voice systems and grew Fish into the #1 global AI text-to-speech platform. Outside of startups, he has climbed 1345 trees so far around the Bay Area. Find his irresistibly clouty thoughts on X at @kile_sway.

Kyle Cui의 더 많은 글 보기 >

최근 글

모두 보기 >