Fish Audio S1 출시: 프런티어 텍스트 음성 변환(TTS) 오디오 파운데이션 모델

2025년 11월 20일

Zhizhuo Zhou, ML Researcher연구

Fish Audio S1 출시: 프런티어 텍스트 음성 변환(TTS) 오디오 파운데이션 모델

핵심 요약

프런티어 텍스트 음성 변환(TTS) 오디오 파운데이션 모델인 Fish Audio S1을 출시합니다.
Fish Audio S1은 200만 시간 이상의 오디오 데이터와 온라인 RLHF(GRPO)를 통해 학습되었습니다.
Fish Audio S1은 Seed TTS Eval에서 0.8%의 WER과 0.4%의 CER을 달성했습니다.
S1은 오픈 도메인 감정, 어조 및 특수 효과 마커를 지원합니다.

지금 S1 체험하기

Fish Audio에서 모델을 무료로 체험해 보세요: https://fish.audio/app/text-to-speech/

Hugging Face 모델 페이지: https://huggingface.co/fishaudio/openaudio-s1-mini

Fish Audio S1

S1은 두 가지 버전으로 제공됩니다:

S1 (4B) – 모든 기능을 갖춘 플래그십 모델, Fish Audio Playground에서 사용 가능
**S1-mini (0.5B) – 리소스 제한 환경을 위한 경량화(distilled) 버전, Hugging Face에서 사용 가능

두 모델 모두 사내 보상 모델을 사용한 **온라인 RLHF (GRPO)**로 학습되었습니다.

최첨단 음성 품질

OpenAudio S1은 대규모 텍스트-오디오 쌍과 풍부한 감독 학습을 결합하여 200만 시간 이상의 오디오 데이터로 학습되었습니다. 단일 모델에서 의미론적(semantic) 정보와 음향적(acoustic) 정보를 공동으로 모델링함으로써, S1은 일반적인 “의미 전용” 파이프라인의 정보 손실을 방지하고 아티팩트와 단어 오류를 줄입니다.

On Seed TTS Eval (GPT-4o 기반 전사 및 pyannote 기반 화자 지표 사용), S1은 다음과 같은 성과를 거두었습니다:

WER: 0.008
CER: 0.004

S1-mini는 그 뒤를 바짝 쫓고 있습니다:

WER: 0.011
CER: 0.005

OpenAudio S1은 또한 HuggingFace TTS-Arena-V2에서 최고의 ELO 점수를 기록하며 자연스러움, 명료도 및 유사성에 대한 인간 주관적 평가에서 1위를 차지했습니다.

성우 수준의 제어

Fish Audio S1은 감정과 전달 방식에 대한 세밀한 제어를 가능하게 합니다. 저희는 감정, 어조, 화자 태그 및 이벤트를 오디오에 캡션으로 추가할 수 있는 자체 음성-텍스트 변환 모델(곧 출시 예정)을 학습시켰으며, 이를 사용하여 10만 시간 이상의 오디오에 지시 이행(instruction-following)을 위한 주석을 달았습니다.

(angry), (sad), (in a hurry), (chuckling) 등과 같은 감정 마커를 사용하여 S1을 안내할 수 있습니다. 추천 감정 태그의 전체 목록은 여기에서 확인하세요: https://docs.fish.audio/developer-guide/core-features/emotions

글로벌 다국어 음성

OpenAudio S1은 전 세계적인 활용을 위해 설계되었습니다. 다음을 포함한 다양한 언어를 지원합니다:

영어, 중국어, 일본어, 독일어, 프랑스어, 스페인어, 한국어, 아랍어, 러시아어, 네덜란드어, 이탈리아어, 폴란드어, 포르투갈어

한 프롬프트 내에서 언어를 혼합하여 사용할 수 있으며, 모델은 스크립트와 문맥에 맞게 자연스럽게 적응합니다.

아키텍처, 속도 및 비용

내부적으로 OpenAudio S1은 다음과 같이 작동합니다:

Qwen3 아키텍처를 멀티모달 백본으로 사용
Descript Audio Codec과 유사한 개념의 자체 오디오 코덱을 처음부터 학습하여 사용
인간의 선호도에 최적화하기 위해 GRPO를 포함한 온라인 RLHF 사용

torch compile 및 최적화된 추론을 통해 S1은 NVIDIA RTX 4090에서 약 1:7의 실시간 요소(real-time factor)로 실행되어 대화형 애플리케이션에 실용적입니다.

가격 측면에서 S1은 진정으로 접근하기 쉽게 설계되었습니다:

100만 바이트당 약 15달러, 오디오 1시간당 약 0.8달러 정도입니다.

이로써 고품질 TTS는 대량의 작업이나 예산에 민감한 작업에서도 실행 가능해졌습니다.

짧은 샘플을 통한 제로샷(Zero-shot) 및 퓨샷(Few-shot) 음성 클로닝
다국어 및 교차 언어 TTS
음소 의존성 없음, 텍스트에서 직접 임의의 스크립트 처리

OpenAudio S1 시작하기

지금 바로 OpenAudio S1을 체험해 보세요:

Fish Audio Playground (S1): https://fish.audio
Hugging Face의 S1-mini: https://huggingface.co/fishaudio/openaudio-s1-mini

Zhizhuo Zhou

Z is a co-founder of Fish Audio and gigachad AI researcher at Stanford focusing on diffusion and 3D generative models. Find him as a barista bartender at exclusive popups, and see his work at zhiz.dev.

Zhizhuo Zhou의 더 많은 글 보기 >

실감 나는 목소리를 만들어보세요

오늘부터 최고 품질의 오디오를 생성하세요.

무료로 가입하기

이미 계정이 있으신가요? 로그인