기간 한정 혜택- 연간 50% 할인사용하기
2026년 3월 9일연구

Fish Audio, S2 오픈 소스 공개: 정밀한 제어와 프로덕션급 스트리밍의 결합

Fish Audio, S2 오픈 소스 공개: 정밀한 제어와 프로덕션급 스트리밍의 결합

S2 Pro는 Fish Audio 앱에서 사용할 수 있으며, 오픈 소스는 프로젝트의 GitHub 저장소HuggingFace를 통해 제공됩니다.

Fish Audio가 [laugh], [whispers], [super happy]와 같은 자연어 태그를 사용하여 운율과 감정을 정밀하게 인라인으로 제어할 수 있는 텍스트 음성 변환(TTS) 모델인 S2를 오픈 소스로 공개했습니다. 약 50개 언어에 걸친 1,000만 시간 이상의 오디오 데이터로 학습된 이 시스템은 강화 학습(RL) 정렬과 듀얼 오토리그레시브(Dual-AR) 아키텍처를 결합했습니다. 이번 릴리스에는 모델 가중치, 파인튜닝 코드, SGLang 기반 스트리밍 추론 엔진이 포함됩니다.

자연어를 통한 정밀한 인라인 제어

S2는 텍스트 내 특정 단어 또는 구문 위치에 직접 자연어 지침을 삽입하여 음성 생성에 대한 인라인 제어를 가능하게 합니다. 미리 정의된 고정된 태그 세트에 의존하는 대신, S2는 [whisper in small voice], [professional broadcast tone], [pitch up]과 같은 자유 형식의 텍스트 설명을 수용하여 단어 수준에서 개방형 표현 제어를 지원합니다.

오디오 튜링 테스트(Audio Turing Test)에서 S2는 지침 재작성 시 0.515의 사후 평균(posterior mean)을 기록했는데, 이는 Seed-TTS의 0.417과 MiniMax-Speech의 0.387보다 높습니다. EmergentTTS-Eval에서는 gpt-4o-mini-tts 기준 대비 81.88%의 종합 승률을 달성했으며, 이는 Google과 OpenAI의 비공개 소스 시스템을 포함한 모든 평가 모델 중 가장 높은 수치입니다.

Example of S2 input format 정밀한 제어를 위한 자유 형식의 자연어 인라인 태그가 포함된 다중 화자 대화의 S2 입력 형식 예시.

통합 레시피: 동일 모델을 통한 데이터 큐레이션 및 RL 보상

S2의 핵심 아키텍처 결정 중 하나는 학습 데이터를 필터링하고 주석을 다는 데 사용된 동일한 모델을 강화 학습 과정에서 보상 모델(reward models)로 직접 재사용한다는 점입니다.

  • **음성 품질 모델(Speech quality model)**은 데이터 필터링 시 SNR, 화자 일관성, 명료도 등의 차원에서 오디오 점수를 매기며, 이후 RL 과정에서 음향 선호도 보상 역할을 합니다.
  • 리치 트랜스크립션 ASR 모델(Rich-transcription ASR model)(Qwen3-Omni-30B-A3B에서 연속 사전 학습됨)은 데이터 큐레이션 중에 인라인 부가 언어 주석이 포함된 캡션 강화 전사본을 생성하며, 생성된 오디오를 다시 전사하고 원래 프롬프트와 비교함으로써 명료도 및 지침 준수 보상을 제공합니다.

이러한 이중 목적 설계는 설계 단계부터 사전 학습 데이터와 사후 학습 목표 간의 분포 불일치(distribution mismatch)를 제거합니다. 이는 데이터 파이프라인과 별도로 보상 모델을 학습시키는 다른 TTS 시스템에서는 아직 해결되지 않은 문제입니다.

모델 내부 구조: 듀얼 AR 아키텍처

S2는 디코더 전용 트랜스포머와 RVQ 기반 오디오 코덱(10개 코드북, ~21 Hz 프레임 속도)을 기반으로 구축되었습니다. 모든 코드북을 시간에 따라 평탄화(flattening)하면 시퀀스 길이가 10배로 늘어나는 문제가 발생합니다. S2는 이를 듀얼 오토리그레시브(Dual-AR) 아키텍처로 해결합니다.

  • Slow AR은 시간 축을 따라 작동하며 기본 시맨틱 코드북을 예측합니다.
  • Fast AR은 각 타임스텝에서 나머지 9개의 잔차 코드북을 생성하여 정밀한 음향 세부 사항을 복원합니다.

시간 축을 따라 40억(4B) 개의 파라미터를, 깊이 축을 따라 4억(400M) 개의 파라미터를 배치한 이 비대칭 설계는 오디오 충실도를 유지하면서도 추론 효율성을 높여줍니다.

음성을 위한 강화 학습 정렬

사후 학습을 위해 S2는 긴 오디오 컨텍스트에서 PPO 스타일 가치 모델의 메모리 오버헤드를 피하기 위해 선택된 GRPO(Group Relative Policy Optimization)를 사용합니다. 보상 신호는 다음을 포함한 여러 차원을 결합합니다.

  • 시맨틱 정확도 및 지침 준수
  • 음향 선호도 점수
  • 음색 유사성

벤치마크 결과

S2는 여러 공개 벤치마크에서 선도적인 결과를 달성했습니다.

벤치마크Fish Audio S2
Seed-TTS Eval — WER (중국어)0.54% (전체 최고)
Seed-TTS Eval — WER (영어)0.99% (전체 최고)
Audio Turing Test (지침 포함)0.515 사후 평균
EmergentTTS-Eval — 승률81.88% (전체 최고)
Fish Instruction Benchmark — TAR93.3%
Fish Instruction Benchmark — 품질4.51 / 5.0
Multilingual (MiniMax Testset) — 최저 WER24개 언어 중 11개
Multilingual (MiniMax Testset) — 최고 SIM24개 언어 중 17개

Seed-TTS Eval에서 S2는 비공개 소스 시스템인 Qwen3-TTS (0.77/1.24), MiniMax Speech-02 (0.99/1.90), Seed-TTS (1.12/2.25)를 포함한 모든 평가 모델 중 가장 낮은 WER을 기록했습니다. 오디오 튜링 테스트에서 0.515의 수치는 Seed-TTS(0.417)를 24%, MiniMax-Speech(0.387)를 33% 상회합니다. EmergentTTS-Eval에서 S2는 특히 부가 언어(91.61% 승률), 질문(84.41%), 구문 복잡성(83.39%) 분야에서 매우 강력한 결과를 보여주었습니다.

감정 제어, 지연 시간, 다국어 지원 등 다양한 솔루션의 평가 방식을 더 자세히 알아보려면 이 독립적인 AI 음성 및 오디오 도구 비교를 참조하세요.

SGLang을 통한 프로덕션급 스트리밍

S2의 듀얼 AR 아키텍처는 표준 오토리그레시브 LLM과 구조적으로 동형(isomorphic)이기 때문에, 컨티뉴어스 배칭(continuous batching), 페이징된 KV 캐시(paged KV cache), CUDA 그래프 리플레이(CUDA graph replay), RadixAttention 기반 프리픽스 캐싱을 포함한 SGLang의 모든 LLM 네이티브 서빙 최적화 기능을 최소한의 수정만으로 직접 상속받을 수 있습니다.

음성 클로닝의 경우, S2는 시스템 프롬프트에 참조 오디오 토큰을 배치합니다. SGLang의 RadixAttention은 이러한 KV 상태를 자동으로 캐싱하여, 동일한 목소리가 여러 요청에 재사용될 때 평균 86.4%(최대 90% 이상)의 프리픽스 캐시 적중률을 달성합니다. 이를 통해 참조 오디오 프리필(prefill) 오버헤드를 거의 무시할 수 있는 수준으로 줄입니다.

단일 NVIDIA H200 GPU 기준 성능:

  • 실시간 계수(RTF): 0.195
  • 첫 오디오 생성 시간(Time-to-first-audio): 약 100ms
  • 처리량(Throughput): RTF를 0.5 미만으로 유지하면서 초당 3,000개 이상의 음향 토큰 생성

클라우드 H100/H200 GPU에서 S2를 실행하는 단계별 가이드는 Spheron의 오픈 소스 TTS 배포 가이드를 확인하세요.

이번 릴리스의 의의

S2는 단순히 모델 체크포인트로만 릴리스된 것이 아니라 모델 가중치, 파인튜닝 코드, 프로덕션 준비가 된 추론 스택을 모두 포함하는 완전한 시스템으로 공개되었습니다.

두 가지 설계 선택이 돋보입니다. 첫째, 통합된 데이터 및 보상 파이프라인은 다른 TTS 시스템이 아키텍처 수준에서 해결하지 못한 사전 학습과 RL 간의 분포 불일치라는 구조적 문제를 해결합니다. 둘째, 듀얼 AR 아키텍처와 표준 LLM 간의 구조적 동형성 덕분에 S2는 맞춤형 추론 인프라를 구축할 필요 없이 LLM 서빙 최적화 생태계 전체를 활용할 수 있습니다.

S2는 프로젝트의 GitHub 저장소, SGLang-Omni, HuggingFace에서 확인할 수 있으며, fish.audio에서 대화형 데모를 체험해 볼 수 있습니다.

Shijia Liao

Shijia LiaoX

Founder & Chief-Scientist of Fish Audio.

Shijia Liao의 더 많은 글 보기

실감 나는 목소리를 만들어보세요

오늘부터 최고 품질의 오디오를 생성하세요.

이미 계정이 있으신가요? 로그인