Fish Audio S2

역대 가장 표현력 있는
음성 AI가 탄생,
이제 오픈소스로 공개.

믿을 수 없을 만큼 사실적인 음성 생성

Fish Audio S2 지금 사용해 보기

S2의 차별점

표현력, 속도, 개방성을 위해 처음부터 구축.

초저지연

150ms 미만의 응답 시간으로 실시간 대화형 AI, 라이브 더빙, 인터랙티브 음성 애플리케이션을 지원합니다. 품질을 타협하지 않는 프로덕션 레디 성능.

<150ms

오픈 도메인 제어 & 다중 화자

자연어 텍스트 지시로 감정, 부언어 등을 제어합니다. 웃음, 속삭임, 한숨 등 모든 표현 요소를 추가할 수 있습니다. 매끄러운 다중 화자 대화 — 단일 생성 내에서 자연스럽게 화자를 전환.

<|speaker:1|> [giggles]

완전 오픈소스

추론 코드와 모델 가중치 모두 완전히 오픈소스입니다. 자체 인프라에서 실행하고, 데이터로 파인튜닝하고, 벤더 종속 없이 통합하세요. 투명성과 커뮤니티 주도 혁신을 위해 구축되었습니다.

Built with SGLang

Fish Audio S2 API로 구축

80개 이상의 언어로 감정, 지시, 다중 화자 제어를 갖춘 생생한 음성을 생성하세요.

from fishaudio import FishAudio
from fishaudio.utils import save

# Initialize with your API key
client = FishAudio(api_key="your_api_key_here")

# Generate speech
audio = client.tts.convert(text="Fish Audio S2 is the best voice AI model.", model="s2-pro")
save(audio, "welcome.mp3")

자주 묻는 질문

Fish Audio S2 Pro는 운율과 감정의 세밀한 인라인 제어 기능을 갖춘 최첨단 텍스트 음성 변환 모델입니다. 80개 이상의 언어에 걸쳐 1,000만 시간 이상의 오디오 데이터로 학습되었으며, 강화 학습 정렬과 이중 자기회귀(Dual-AR) 아키텍처를 결합합니다. 40억 매개변수의 Slow AR이 의미 예측을, 4억 매개변수의 Fast AR이 음향 디테일을 담당합니다. 모델 가중치, 파인튜닝 코드, SGLang 기반 스트리밍 추론 엔진이 공개되어 있습니다.

S2 Pro는 [tag] 구문을 사용하여 텍스트 내에 자연어 지시를 직접 삽입하여 음성 생성의 로컬 제어를 구현합니다. 미리 정의된 태그 세트에 의존하지 않고 [whisper in small voice], [professional broadcast tone], [pitch up]과 같은 자유 형식 텍스트 설명을 허용하여 단어 수준의 개방형 표현 제어가 가능합니다. [pause], [emphasis], [laughing], [excited], [whisper], [singing] 등 15,000개 이상의 고유 태그가 지원됩니다.

단일 NVIDIA H200 GPU에서 S2 Pro는 실시간 인자(RTF) 0.195, 첫 번째 오디오까지의 시간 약 100ms, 초당 3,000개 이상의 음향 토큰 처리량을 달성하며 RTF를 0.5 이하로 유지합니다. SGLang 기반 추론 엔진은 연속 배칭, 페이지드 KV 캐시, CUDA 그래프 리플레이, RadixAttention 기반 프리픽스 캐싱 등 모든 LLM 네이티브 서빙 최적화를 상속합니다.

S2 Pro는 80개 이상의 언어를 지원합니다. Tier 1 언어(최고 품질)에는 일본어, 영어, 중국어가 포함됩니다. Tier 2 언어에는 한국어, 스페인어, 포르투갈어, 아랍어, 러시아어, 프랑스어, 독일어가 포함됩니다. 스웨덴어, 이탈리아어, 터키어, 네덜란드어, 힌디어, 태국어, 베트남어 등도 지원됩니다.

S2 Pro는 Fish Audio Research License로 라이선스됩니다. 연구 및 비상업적 사용은 무료로 허용됩니다. 상업적 사용은 Fish Audio의 별도 라이선스가 필요합니다. 자세한 내용은 business@fish.audio로 문의하세요.