2026년 3월 9일연구

Fish Audio, S2 오픈 소스 공개: 정밀한 제어와 프로덕션급 스트리밍의 결합

S2 Pro는 Fish Audio 앱에서 사용할 수 있으며, 오픈 소스는 프로젝트의 GitHub 저장소 및 HuggingFace를 통해 제공됩니다.

Fish Audio가 [laugh], [whispers], [super happy]와 같은 자연어 태그를 사용하여 운율과 감정을 정밀하게 인라인으로 제어할 수 있는 텍스트 음성 변환(TTS) 모델인 S2를 오픈 소스로 공개했습니다. 약 50개 언어에 걸친 1,000만 시간 이상의 오디오 데이터로 학습된 이 시스템은 강화 학습(RL) 정렬과 듀얼 오토리그레시브(Dual-AR) 아키텍처를 결합했습니다. 이번 릴리스에는 모델 가중치, 파인튜닝 코드, SGLang 기반 스트리밍 추론 엔진이 포함됩니다.

자연어를 통한 정밀한 인라인 제어

S2는 텍스트 내 특정 단어 또는 구문 위치에 직접 자연어 지침을 삽입하여 음성 생성에 대한 인라인 제어를 가능하게 합니다. 미리 정의된 고정된 태그 세트에 의존하는 대신, S2는 [whisper in small voice], [professional broadcast tone], [pitch up]과 같은 자유 형식의 텍스트 설명을 수용하여 단어 수준에서 개방형 표현 제어를 지원합니다.

오디오 튜링 테스트(Audio Turing Test)에서 S2는 지침 재작성 시 0.515의 사후 평균(posterior mean)을 기록했는데, 이는 Seed-TTS의 0.417과 MiniMax-Speech의 0.387보다 높습니다. EmergentTTS-Eval에서는 gpt-4o-mini-tts 기준 대비 81.88%의 종합 승률을 달성했으며, 이는 Google과 OpenAI의 비공개 소스 시스템을 포함한 모든 평가 모델 중 가장 높은 수치입니다.

Example of S2 input format 정밀한 제어를 위한 자유 형식의 자연어 인라인 태그가 포함된 다중 화자 대화의 S2 입력 형식 예시.

통합 레시피: 동일 모델을 통한 데이터 큐레이션 및 RL 보상

S2의 핵심 아키텍처 결정 중 하나는 학습 데이터를 필터링하고 주석을 다는 데 사용된 동일한 모델을 강화 학습 과정에서 보상 모델(reward models)로 직접 재사용한다는 점입니다.

**음성 품질 모델(Speech quality model)**은 데이터 필터링 시 SNR, 화자 일관성, 명료도 등의 차원에서 오디오 점수를 매기며, 이후 RL 과정에서 음향 선호도 보상 역할을 합니다.
리치 트랜스크립션 ASR 모델(Rich-transcription ASR model)(Qwen3-Omni-30B-A3B에서 연속 사전 학습됨)은 데이터 큐레이션 중에 인라인 부가 언어 주석이 포함된 캡션 강화 전사본을 생성하며, 생성된 오디오를 다시 전사하고 원래 프롬프트와 비교함으로써 명료도 및 지침 준수 보상을 제공합니다.

이러한 이중 목적 설계는 설계 단계부터 사전 학습 데이터와 사후 학습 목표 간의 분포 불일치(distribution mismatch)를 제거합니다. 이는 데이터 파이프라인과 별도로 보상 모델을 학습시키는 다른 TTS 시스템에서는 아직 해결되지 않은 문제입니다.

모델 내부 구조: 듀얼 AR 아키텍처

S2는 디코더 전용 트랜스포머와 RVQ 기반 오디오 코덱(10개 코드북, ~21 Hz 프레임 속도)을 기반으로 구축되었습니다. 모든 코드북을 시간에 따라 평탄화(flattening)하면 시퀀스 길이가 10배로 늘어나는 문제가 발생합니다. S2는 이를 듀얼 오토리그레시브(Dual-AR) 아키텍처로 해결합니다.

Slow AR은 시간 축을 따라 작동하며 기본 시맨틱 코드북을 예측합니다.
Fast AR은 각 타임스텝에서 나머지 9개의 잔차 코드북을 생성하여 정밀한 음향 세부 사항을 복원합니다.

시간 축을 따라 40억(4B) 개의 파라미터를, 깊이 축을 따라 4억(400M) 개의 파라미터를 배치한 이 비대칭 설계는 오디오 충실도를 유지하면서도 추론 효율성을 높여줍니다.

음성을 위한 강화 학습 정렬

사후 학습을 위해 S2는 긴 오디오 컨텍스트에서 PPO 스타일 가치 모델의 메모리 오버헤드를 피하기 위해 선택된 GRPO(Group Relative Policy Optimization)를 사용합니다. 보상 신호는 다음을 포함한 여러 차원을 결합합니다.

시맨틱 정확도 및 지침 준수
음향 선호도 점수
음색 유사성

벤치마크 결과

S2는 여러 공개 벤치마크에서 선도적인 결과를 달성했습니다.

벤치마크	Fish Audio S2
Seed-TTS Eval — WER (중국어)	0.54% (전체 최고)
Seed-TTS Eval — WER (영어)	0.99% (전체 최고)
Audio Turing Test (지침 포함)	0.515 사후 평균
EmergentTTS-Eval — 승률	81.88% (전체 최고)
Fish Instruction Benchmark — TAR	93.3%
Fish Instruction Benchmark — 품질	4.51 / 5.0
Multilingual (MiniMax Testset) — 최저 WER	24개 언어 중 11개
Multilingual (MiniMax Testset) — 최고 SIM	24개 언어 중 17개

Seed-TTS Eval에서 S2는 비공개 소스 시스템인 Qwen3-TTS (0.77/1.24), MiniMax Speech-02 (0.99/1.90), Seed-TTS (1.12/2.25)를 포함한 모든 평가 모델 중 가장 낮은 WER을 기록했습니다. 오디오 튜링 테스트에서 0.515의 수치는 Seed-TTS(0.417)를 24%, MiniMax-Speech(0.387)를 33% 상회합니다. EmergentTTS-Eval에서 S2는 특히 부가 언어(91.61% 승률), 질문(84.41%), 구문 복잡성(83.39%) 분야에서 매우 강력한 결과를 보여주었습니다.

감정 제어, 지연 시간, 다국어 지원 등 다양한 솔루션의 평가 방식을 더 자세히 알아보려면 이 독립적인 AI 음성 및 오디오 도구 비교를 참조하세요.

SGLang을 통한 프로덕션급 스트리밍

S2의 듀얼 AR 아키텍처는 표준 오토리그레시브 LLM과 구조적으로 동형(isomorphic)이기 때문에, 컨티뉴어스 배칭(continuous batching), 페이징된 KV 캐시(paged KV cache), CUDA 그래프 리플레이(CUDA graph replay), RadixAttention 기반 프리픽스 캐싱을 포함한 SGLang의 모든 LLM 네이티브 서빙 최적화 기능을 최소한의 수정만으로 직접 상속받을 수 있습니다.

음성 클로닝의 경우, S2는 시스템 프롬프트에 참조 오디오 토큰을 배치합니다. SGLang의 RadixAttention은 이러한 KV 상태를 자동으로 캐싱하여, 동일한 목소리가 여러 요청에 재사용될 때 평균 86.4%(최대 90% 이상)의 프리픽스 캐시 적중률을 달성합니다. 이를 통해 참조 오디오 프리필(prefill) 오버헤드를 거의 무시할 수 있는 수준으로 줄입니다.

단일 NVIDIA H200 GPU 기준 성능:

실시간 계수(RTF): 0.195
첫 오디오 생성 시간(Time-to-first-audio): 약 100ms
처리량(Throughput): RTF를 0.5 미만으로 유지하면서 초당 3,000개 이상의 음향 토큰 생성

클라우드 H100/H200 GPU에서 S2를 실행하는 단계별 가이드는 Spheron의 오픈 소스 TTS 배포 가이드를 확인하세요.

이번 릴리스의 의의

S2는 단순히 모델 체크포인트로만 릴리스된 것이 아니라 모델 가중치, 파인튜닝 코드, 프로덕션 준비가 된 추론 스택을 모두 포함하는 완전한 시스템으로 공개되었습니다.

두 가지 설계 선택이 돋보입니다. 첫째, 통합된 데이터 및 보상 파이프라인은 다른 TTS 시스템이 아키텍처 수준에서 해결하지 못한 사전 학습과 RL 간의 분포 불일치라는 구조적 문제를 해결합니다. 둘째, 듀얼 AR 아키텍처와 표준 LLM 간의 구조적 동형성 덕분에 S2는 맞춤형 추론 인프라를 구축할 필요 없이 LLM 서빙 최적화 생태계 전체를 활용할 수 있습니다.

S2는 프로젝트의 GitHub 저장소, SGLang-Omni, HuggingFace에서 확인할 수 있으며, fish.audio에서 대화형 데모를 체험해 볼 수 있습니다.

자주 묻는 질문

다중 화자 대화 생성은 어떻게 작동하나요?

S2는 다중 화자 및 멀티턴 생성을 기본적으로 지원합니다. 입력에 화자 태그와 자연어 인라인 지침을 직접 삽입함으로써, S2는 일관된 음색을 유지하고 운율을 맞추며 각 화자별 감정 단서를 준수하면서 여러 목소리를 하나로 엮어냅니다. 이를 통해 단일 음성 내레이션뿐만 아니라 전체 대화를 생성하는 데 적합합니다.

API를 통해 사용할 수 있나요?

네, S2는 fish.audio의 Fish Audio API를 통해 사용할 수 있습니다. 또한 전체 모델 가중치, 파인튜닝 코드 및 SGLang 기반 추론 엔진이 GitHub(github.com/fishaudio/fish-speech)와 HuggingFace(huggingface.co/fishaudio/s2-pro)에 오픈 소스로 공개되어 있어 자체 호스팅도 가능합니다.

어떤 오디오 태그가 지원되나요?

S2는 고정된 사전 정의 세트가 아닌 자유 형식의 자연어 인라인 태그를 수용하므로 폐쇄된 어휘에 제한되지 않습니다. [laugh], [whispers], [super happy], [professional broadcast tone], [pitch up]과 같은 태그를 단어나 구문의 어느 위치에나 삽입할 수 있습니다. 시스템이 개방형 설명을 기반으로 학습되었기 때문에, 새로운 태그도 학습 중에 본 예시를 넘어 잘 일반화됩니다.

어떤 언어를 지원하나요?

S2는 약 80개 언어에 걸친 1,000만 시간 이상의 오디오 데이터로 학습되었습니다. 24개 언어를 포함하는 MiniMax 다국어 테스트 세트에서 S2는 11개 언어에서 최고 WER을, 17개 언어에서 최고 화자 유사도를 달성하여 벤치마크 대부분의 언어에서 MiniMax와 ElevenLabs를 능가했습니다. 지원 언어에는 다음이 포함됩니다: 아랍어, 광둥어, 중국어, 체코어, 네덜란드어, 영어, 핀란드어, 프랑스어, 독일어, 그리스어, 힌디어, 인도네시아어, 이탈리아어, 일본어, 한국어, 폴란드어, 포르투갈어, 루마니아어, 러시아어, 스페인어, 태국어, 터키어, 우크라이나어, 베트남어