Fish-Speech를 소개합니다: 차세대 다국어 TTS
2025년 10월 14일

핵심 요약
- SOTA 트랜스포머 기반 자기회귀형(autoregressive) 다국어 TTS인 Fish-Speech를 소개합니다
- 안정적이고 자연스러운 운율을 위해 혁신적인 dual-AR 아키텍처를 사용합니다
- 표현력 있는 음성을 위해 100%에 가까운 코드북 활용률을 가진 Firefly-GAN 보코더를 탑재했습니다
- 72만 시간의 데이터로 학습되었으며 실시간 AI 에이전트를 위해 제작되었습니다
기술 논문: https://arxiv.org/abs/2411.01156
Fish-Speech는 LLM의 추론 능력을 음성 파이프라인에 직접 도입한 새로운 다국어 텍스트 음성 변환(TTS) 시스템입니다. 취약한 자소-음소 변환(grapheme-to-phoneme) 규칙에 의존하는 대신, 언어 모델을 사용하여 텍스트를 기본적으로 이해함으로써 동음이의어 표현, 혼합 언어 콘텐츠 및 문맥 중심 입력 처리에 훨씬 뛰어난 성능을 발휘합니다.
Dual-AR 아키텍처
이 시스템은 고수준의 언어 구조를 위한 Slow Transformer와 음향적 세부 사항을 위한 Fast Transformer를 사용합니다. 이 2단계 프로세스는 생성을 안정화하고, 코드북 활용도를 높이며, 확산(diffusion) 지연 시간을 제거합니다. KV-cache 및 기타 최적화를 통해 Fish-Speech는 약 150ms의 첫 패킷 지연 시간으로 응답할 수 있어 대화형 에이전트에 이상적입니다.
Firefly-GAN 보코더
오디오 레이어에서 Firefly-GAN 보코더는 depthwise/dilated 컨볼루션과 그룹화된 스칼라 벡터 양자화(grouped scalar vector quantization)를 결합합니다. 이 설계는 거의 완벽한 코드북 활용률에 도달하며, 매우 높은 오디오 품질을 유지하면서 감정 표현 및 다국어 합성을 효율적으로 처리합니다.
대규모 데이터 학습
Fish-Speech는 주요 어족을 아우르는 72만 시간의 다국어 오디오 데이터를 학습했습니다. 균형 잡힌 데이터셋 덕분에 모델은 다양한 언어, 억양 및 혼합 언어 시나리오에서 일관된 품질을 유지할 수 있습니다.
음성 클로닝 품질
이 시스템은 단어 오류율(WER), 화자 유사도 및 MOS에서 선도적인 성능을 달성하여 강력한 기준 모델들을 능가하고, 심지어 WER 측면에서는 실제 전사 데이터(ground-truth)를 넘어서기도 합니다. 또한 음색, 운율 및 정체성을 높은 충실도로 보존합니다.
직접 사용해보기
Fish-Speech는 다음에서 오픈 소스로 제공됩니다:

Lengyue is the founder of Fish Audio and a cracked researching pushing breakthroughs in Voice AI. Follow his work at @lengyuematrix.
Lengyue의 더 많은 글 보기 >