2026년 3월 12일가이드

Fish Audio S2! 단어 수준의 세밀한 AI 음성 제어

Sabrina Shu, Support & Marketing Specialist

Fish Audio S2는 표현력이 풍부한 TTS에 오픈 도메인 인라인 태그, 단어 수준의 AI 음성 제어 및 80개 언어 지원을 제공합니다. 실제 예시를 통해 어떻게 작동하는지 확인해 보세요.

2026년 3월 | Fish Audio S2를 이제 사용할 수 있습니다

Fish Audio S2란 무엇인가요?
30초 만에 살펴보는 S2의 기능
Fish Audio S2의 인라인 태그
실제 사례
S2의 성능 — 벤치마크 결과
80개 언어 지원
오픈 소스
시작하는 방법
FAQ

대부분의 AI 음성 도구는 음성을 제공하고 전반적인 분위기(차분하게, 활기차게, 조금 더 따뜻하게 등)를 전역 수준에서 조정하게 합니다. Fish Audio S2는 표현력이 풍부한 TTS에 대해 다른 접근 방식을 취합니다. 스크립트 내부에서 평범한 언어로 단어 수준에서 음성을 직접 지시합니다. Fish Audio S1의 감정 태그에 익숙하다면, S2는 오픈 도메인 인라인 제어를 통해 그 아이디어를 획기적으로 확장한 모델입니다.

실제로는 다음과 같은 모습입니다:

I thought I was ready. [voice breaking] I wasn't.

[soft voice] Take your time. There's no rush.

That was the third time this week. [sigh] I really need to fix that.

설정 패널도, SSML도, 후반 작업도 필요 없습니다. 텍스트 안에 지시 사항을 작성하면 S2가 이를 렌더링합니다.

요약

Fish Audio S2는 단어 수준에서 표현력이 풍부한 TTS 제어를 위한 인라인 태그를 도입합니다.

자연어로 작성된 오픈 도메인 태그 — 고정된 어휘 없음
정교한 타이밍과 전달 방식의 변화를 위한 문장 중간 배치 가능
약 80개 언어 지원
오픈 소스 모델 가중치, 파인튜닝 코드 및 추론 스택 제공

전역 음성 설정을 조정하는 대신, S2를 사용하면 스크립트 내에서 직접 전달 방식을 지시할 수 있습니다.

Fish Audio S2란 무엇인가요?

https://www.youtube.com/watch?v=NIcXTOSdOXc

Fish Audio S2는 Fish Audio의 2세대 TTS 모델입니다. 약 80개 언어에 걸쳐 1,000만 시간 이상의 오디오로 학습되었으며, 인라인 태그 제어를 도입했습니다. 이는 스크립트의 어느 위치에나 직접 삽입할 수 있는 자연어 지침으로, 단어 또는 구절 수준에서 음성이 전달되는 방식에 대해 세밀한 지시를 내릴 수 있게 해줍니다.

이 모델은 GitHub 및 HuggingFace에 오픈 소스로 공개되어 있으며, Fish Audio API 및 APP을 통해 사용할 수 있습니다.

30초 만에 살펴보는 S2의 기능

S2의 인라인 태그는 텍스트 어디에나 배치할 수 있는 대괄호 지침입니다:

[whispering] Don't let them hear you.

She set the folder down. [long pause] Then she looked up.

[laughing] I have absolutely no idea what just happened.

태그는 그 뒤에 오는 내용에 영향을 미칩니다. 변화가 일어나야 하는 정확한 지점에 태그를 배치하세요. 문장 시작 부분에만 국한되지 않습니다.

고정된 메뉴에서 선택하는 것이 아닙니다. 설명을 작성하면 S2가 이를 해석합니다:

[the calm, measured tone of someone who has done this a thousand times]
Please place your hands where I can see them.

[overly cheerful, clearly forcing it]
Everything is completely fine. Totally fine.

성우에게 설명할 수 있는 내용이라면 S2가 이를 구현하려고 시도할 것입니다.

Fish Audio S2의 인라인 태그

인라인 태그는 Fish Audio S2의 핵심 제어 메커니즘입니다. 이는 스크립트에 직접 삽입하여 어떤 단어에서든, 어느 지점에서든 음성 전달 방식을 지시하는 [대괄호] 안의 자연어 지침입니다.

구문

영향을 주고자 하는 단어나 구절 바로 앞에 [대괄호]를 사용하여 태그를 배치합니다. 태그는 문장의 시작, 중간, 끝 등 어디에나 올 수 있습니다.

[whispering] I didn't want to go inside.
I didn't want to go [whispering] inside.

두 가지 모두 작동합니다. 첫 번째는 문장 전체를 속삭입니다. 두 번째는 "inside"부터 속삭입니다. 배치가 곧 의미입니다.

원하는 언어로 태그 작성

태그가 반드시 영어일 필요는 없습니다. S2는 80개 언어에 걸친 자연어 지침을 이해하므로 스크립트와 동일한 언어로 태그를 작성할 수 있습니다.

日本語 (일본어)

[囁き声で] 誰にも聞かせないで。
[ため息をついて] もう一度やり直そう。

中文 (중국어)

[低声说] 不要让他们听见。
[叹气] 我真的不知道该怎么办了。

español (스페인어)

[susurrando] No dejes que te escuchen.
[enojado] ¿Cómo pudiste hacer eso?

한국어

[속삭이며] 아무도 모르게 해줘.
[화나서] 어떻게 그럴 수가 있어.

동일한 논리가 적용됩니다. 스크립트에 가장 자연스러운 언어로, 영향을 주려는 단어나 구절 바로 앞에 태그를 배치하세요.

충분히 테스트된 태그들

S2는 모든 자연어 설명을 수용하지만, 아래 태그들은 즉시 강력한 결과를 지속적으로 생성합니다. 태그는 나타난 시점부터 다음 태그가 나오거나 문장이 끝날 때까지 적용됩니다.

호흡 및 반응

음성 소리

속도 조절

음성 스타일

감정

기타

자유 형식 설명

위의 태그 목록 외에도 S2는 개방형 설명을 수용합니다. 성우에게 말하듯 작성해 보세요:

[speaking slowly, almost hesitant]
[professional broadcast tone]
[dead tired, end of a very long shift]
[pitch up]
[voice rough from crying, trying to sound normal]

S2는 개방형 설명으로 학습되었기 때문에 새로운 태그도 잘 일반화됩니다. 학습 중에 본 예시에만 국한되지 않습니다.

태그 조합

단락 전체에 걸쳐 태그를 연결하여 전달 방식의 변화를 줄 수 있습니다:

[soft voice] I wasn't sure what to say. [long pause] [loud voice] But then it hit me.

문장 사이에 반응 태그를 사용하여 자연스러운 전환을 만듭니다:

That was the third time this week. [sigh] I really need to fix that.

반응과 감정 태그를 조합하면 감정을 신체적으로 더 생생하게 표현할 수 있습니다:

[sigh] [sad] I just don't know anymore.

실제 사례

오디오북 낭독

[NARRATOR, low and slow] Chapter Nine. The Last Morning. The apartment felt different that day — smaller, somehow.

SARAH: [voice rough from crying, trying to sound normal] I made coffee. Do you want some?

DANIEL: [long pause, then quietly] Yeah. Thanks.

팟캐스트

Today we're looking at something I've spent three months trying to understand.

[chuckling] I kept getting it wrong. My producer will confirm this.

게임 대사

VILLAIN: [calm, almost bored, as if this conversation is beneath them] You came all this way.

VILLAIN: [sudden fury, voice tight] Where is it?

VILLAIN: [composure returning, dangerously quiet] Did you really think that would work?

HERO: [exhausted, but steady] Every time.

보이스 에이전트

[friendly, warm] Hi — thanks for calling. How can I help you today?

[empathetic, unhurried] I'm sorry to hear that. Let me pull this up.

[confident] Good news — I can see exactly what happened, and I'm going to get this sorted for you right now.

최상의 결과를 얻기 위한 팁

S2의 인라인 태그는 표현력이 풍부하지만, 그 효과가 얼마나 나타나는지는 사용 방법과 선택한 음성에 따라 달라집니다. 다음은 실제 테스트를 기반으로 한 팁입니다.

신체적 태그를 감정 태그와 결합하세요. [panting], [whispering], [shouting]과 같은 태그는 단독으로도 작동하지만 감정적 맥락이 없으면 효과가 밋밋하게 느껴질 수 있습니다. 이를 감정 태그와 결합하면 더 일관되고 자연스러운 결과를 얻을 수 있습니다.

[panting] [tired] I've been running for twenty minutes.
[whispering] [scared] Don't move. Don't make a sound.
[shouting] [angry] I told you this would happen!

설명 태그 뒤에는 항상 텍스트를 배치하세요. [voice rough from crying, trying to sound normal]과 같은 설명 태그에는 말할 내용이 필요합니다. 태그만 단독으로 두지 마세요. 태그는 그 뒤에 오는 내용의 전달 방식을 지시하므로 뒤에 텍스트가 없으면 결과가 예측 불가능할 수 있습니다.

✅  [voice rough from crying, trying to sound normal] I made coffee. Do you want some?
❌  [voice rough from crying, trying to sound normal]

스크립트를 짜기 전에 음성을 테스트하세요. 음성마다 동일한 태그에 반응하는 강도가 다릅니다. 본래 차분한 어조의 음성은 표현력이 풍부한 음성보다 변화가 더 미묘할 수 있습니다. 태그가 예상대로 적용되지 않는다면 태그 자체를 수정하기 전에 다른 음성을 시도해 보세요. 문제는 지침이 아니라 음성 자체에 있는 경우가 많습니다.

단순하게 시작한 다음 레이어를 추가하세요. 잘 배치된 단 하나의 [sigh]나 [long pause]가 문장 전체를 바꿀 수 있습니다. 더 간단한 버전으로 충분하지 않을 때만 태그를 추가하세요. 너무 많은 태그는 서로 충돌할 수 있습니다.

출시 예정: 여러 생성 결과 중 마음에 드는 것을 선택하세요. S2는 동일한 문장에 대해 여러 버전을 동시에 생성하는 기능을 지원할 예정입니다. 이미지 생성 도구에서 여러 배치 중 하나를 선택하는 것처럼, 가장 적합한 전달 방식을 비교하고 선택할 수 있게 됩니다. 이를 통해 매번 수동으로 태그를 수정하지 않고도 최적의 연기를 훨씬 쉽게 찾아낼 수 있습니다.

S2의 성능 — 벤치마크 결과

S2의 인라인 제어는 단순한 UX 기능이 아닙니다. 이는 공개 음성 벤치마크에서의 강력한 성능과도 직결됩니다. 이 벤치마크들은 현대 TTS 시스템 전반에 걸쳐 음성의 자연스러움, 발음 정확도 및 지시 이행 능력을 측정합니다.

Audio Turing Test에서 S2는 0.515점을 기록하여 Seed-TTS를 24%, MiniMax-Speech를 33% 앞섰습니다. EmergentTTS-Eval에서는 특히 언어 외적 요소(paralinguistics)에서 91.61%의 승률을 기록하며 강점을 보였는데, 이는 인라인 태그 실행 품질을 직접적으로 반영합니다.

Seed-TTS Eval에서 S2는 Qwen3-TTS (0.77% / 1.24%), MiniMax Speech-02 (0.99% / 1.90%), Seed-TTS (1.12% / 2.25%)를 포함한 폐쇄형 시스템을 포함한 모든 평가 모델 중 가장 낮은 단어 오류율(WER)을 달성했습니다.

출처: Fish Audio S2 출시 포스트 (Shijia Liao, 수석 과학자)

80개 언어 지원

S2는 약 80개 언어에 걸친 1,000만 시간 이상의 오디오 데이터로 학습되었습니다. 24개 언어를 포함하는 MiniMax 다국어 테스트셋에서 S2는 11개 언어에서 가장 우수한 단어 오류율을, 17개 언어에서 가장 우수한 화자 유사성을 기록하며 벤치마크 대다수 항목에서 MiniMax와 ElevenLabs를 모두 능가했습니다.

강력한 성능이 확인된 언어는 다음과 같습니다: 아랍어, 광둥어, 중국어, 체코어, 네덜란드어, 영어, 핀란드어, 프랑스어, 독일어, 그리스어, 힌디어, 인도네시아어, 이탈리아어, 일본어, 한국어, 폴란드어, 포르투갈어, 루마니아어, 러시아어, 스페인어, 태국어, 터키어, 우크라이나어, 베트남어.

오픈 소스

대부분의 상용 TTS 시스템과 달리 Fish Audio S2는 모델 가중치, 파인튜닝 코드 및 프로덕션 수준의 SGLang 기반 추론 엔진까지 완전히 오픈 소스로 공개되어 개발자가 직접 호스팅하고 파인튜닝하며 대규모로 배포할 수 있습니다.

GitHub: github.com/fishaudio/fish-speech
HuggingFace: huggingface.co/fishaudio/s2-pro
SGLang 추론: SGLang-Omni

단일 H200 GPU에서의 프로덕션 성능:

실시간 계수 (RTF): 0.195
첫 오디오 생성 시간 (TTFA): ~100ms
처리량: 초당 3,000개 이상의 음향 토큰

대규모 보이스 클로닝을 위해 S2는 시스템 프롬프트에 참조 오디오 토큰을 배치합니다. SGLang의 KV 캐시는 동일한 음성이 요청 간에 재사용될 때 평균 86.4%의 접두사 캐시 적중률을 달성하여, 반복적인 보이스 클로닝 오버헤드를 거의 무시할 수 있는 수준으로 만듭니다.

시작하는 방법

APP ~~플레이그라운드~~에서 시도해 보세요 — fish.audio는 S2 인라인 태그를 직접 지원합니다. 스크립트의 어느 곳에나 [대괄호]를 배치하고 생성해 보세요.
API를 통해 통합하세요 — Fish Audio API를 통해 사용할 수 있습니다. 엔드포인트 및 인증에 대해서는 API 레퍼런스를 참조하세요.
모델을 직접 호스팅하세요 — 가중치와 추론 스택은 GitHub와 HuggingFace에 오픈 소스로 공개되어 있습니다.

출시 예정: Fish Audio APP 및 API에서 다중 화자 대화 생성 기능이 제공될 예정입니다.
인라인 태그 구문, 배치 규칙 및 팁에 대한 전체 안내: → Fish Audio S2 인라인 태그 사용 방법
S1에서 넘어와서 두 시스템의 관계를 이해하고 싶다면: → Fish Audio S1 감정 태그 — 완벽 가이드

FAQ

TTS에서 인라인 태그란 무엇인가요?

인라인 태그는 특정 단어나 구절이 발음되는 방식(전달력, 감정, 속도 또는 음성 품질)을 정확한 지점에서 제어하기 위해 TTS 스크립트에 직접 삽입하는 짧은 지침입니다. 생성 전체에 적용되는 전역 음성 설정과 달리 인라인 태그를 사용하면 대사 내의 개별 순간을 지시할 수 있습니다. Fish Audio S2는 인라인 태그에 [대괄호]를 사용하며 자유 형식의 자연어 설명을 수용합니다.

Fish Audio S2란 무엇인가요?

Fish Audio S2는 Fish Audio의 2세대 TTS 모델입니다. 약 80개 언어에 걸친 1,000만 시간 이상의 오디오로 학습되었으며, 스크립트 어디에나 배치할 수 있는 [대괄호] 안의 자연어 태그를 통해 정교한 인라인 제어를 지원합니다. GitHub와 HuggingFace에 오픈 소스로 공개되어 있으며, Fish Audio API 및 APP~~ 플레이그라운드~~를 통해 사용할 수 있습니다.

S2에서 인라인 태그는 어떻게 작동하나요?

영향을 주려는 단어나 구절 바로 앞에 [대괄호]를 사용하여 태그를 배치합니다. [whispering], [sigh], [long pause]와 같이 검증된 태그를 사용하거나 자유로운 자연어 설명을 작성할 수 있습니다. 태그는 다음 태그가 나오거나 문장이 끝날 때까지 뒤따르는 모든 내용에 적용됩니다.

Fish Audio S2는 오픈 소스인가요?

네. 모델 가중치, 파인튜닝 코드 및 SGLang 기반 추론 엔진은 github.com/fishaudio/fish-speech 및 huggingface.co/fishaudio/s2-pro에 오픈 소스로 공개되어 있습니다.

S2는 몇 개의 언어를 지원하나요?

S2는 약 80개 언어로 학습되었습니다. 24개 언어 다국어 벤치마크에서 S2는 11개 언어에서 최저 단어 오류율을, 17개 언어에서 최고의 화자 유사성을 기록하며 MiniMax와 ElevenLabs를 능가했습니다.

S2는 S1의 () 괄호 구문을 지원하나요?

아니요. S2는 기본적으로 [대괄호]를 사용합니다. Fish Audio 웹 UI는 S2를 선택할 때 ()를 []로 자동 변환하지만, API를 직접 사용하는 경우에는 대괄호를 사용해야 합니다.

S2는 다중 화자 대화를 지원하나요?

다중 화자 생성 기능이 곧 Fish Audio APP과 API에 추가될 예정입니다. 모델은 이를 기본적으로 지원하며, 곧 출시될 업데이트를 기다려 주세요.

Fish Audio S1과 S2의 차이점은 무엇인가요?

S1은 문장 시작 부분에 배치되는 (소괄호) 안의 사전 정의된 감정 태그 어휘를 사용합니다. S2는 문장 중간, 단어 사이, 시작 부분 등 어디에나 나타날 수 있는 [대괄호] 안의 오픈 도메인 자연어 태그를 사용합니다. 또한 S2는 닫힌 키워드 목록이 아닌 자유 형식의 설명을 수용하므로 미리 정의된 감정에 국한되지 않습니다. 자세한 비교는 Fish Audio S1 감정 태그 가이드를 참조하세요.

Fish Audio S2가 SSML을 대체할 수 있나요?

대부분의 표현력이 필요한 사례에서 그렇습니다. Fish Audio S2는 자연어 인라인 태그를 통해 많은 SSML 스타일 제어를 복제할 수 있습니다. <prosody rate="slow">와 같은 XML 마크업 대신 스크립트에 직접 [speaking slowly]라고 작성하면 됩니다. [whispering], [long pause], [angry]와 같은 태그는 전문적인 마크업 지식 없이도 가장 일반적인 SSML 표현 기능을 수행합니다.

Fish Audio S2 인라인 태그는 다른 TTS 시스템과 호환되나요?

아니요. Fish Audio S2의 인라인 태그 구문은 해당 모델 전용입니다. 다른 TTS 시스템은 SSML이나 자체적인 형식을 사용합니다. 하지만 구문이 다르더라도 일시 정지, 톤 변화, 음성 신호와 같은 기본 표현 개념은 시스템 간 이동 시 개념적으로 동일하게 적용됩니다.

관련 리소스:

Sabrina Shu

Sabrina is part of Fish Audio's support and marketing team, helping users get the most out of AI voice products while turning launches, updates, and customer insights into clear, practical content.

Sabrina Shu의 더 많은 글 보기