프로덕션급 음성 AI.스타트업 가격으로.커뮤니티처럼 열린.
API 하나로 생동감 있는 음성 합성, 음성 복제, 음성 인식을 구현하세요. 공식 Python, TypeScript SDK 제공. 서브-세컨드 지연 시간. 첫 호출부터 종량제 과금.

S2.1 Pro가 라이브로 실행 중입니다. 음성을 선택하고 문장을 입력하면 바로 들을 수 있습니다. HeyGen, Retell, Sanas가 프로덕션에서 사용하는 바로 그 모델 — 회원가입도, 영업 통화도, 데모 환경도 필요 없습니다.
# The same call. The (direction) tags travel with the text.
curl https://api.fish.audio/v1/tts \
-H "Authorization: Bearer $FISH_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"text": "[chuckle] When you’re creating something new, there’s this [emphasis] beautiful mix of wonder and fear.",
"reference_id": "933563129e564b19a115bedd57b7406a",
"format": "mp3"
}' --output speech.mp3가입부터 첫 오디오까지 5 단 몇 분이면 충분합니다.
영업 통화 필요 없음. API 키를 발급받고, SDK를 설치하고, 바로 배포하세요.
# Text to speech in one callcurl -X POST \ https://api.fish.audio/v1/tts \-H "Authorization: Bearer $FISH_API_KEY" \-H "Content-Type: application/json" \-H "model: s2.1-pro-free" \-d '{"text": "Hello! Welcome to Fish Audio."}' \--output welcome.mp3
# Text to speech with the Python SDKfrom fish_audio_sdk import Session, TTSRequestsession = Session("YOUR_API_KEY")request = TTSRequest(text="Hello! Welcome to Fish Audio.")with open("welcome.mp3", "wb") as f:for chunk in session.tts(request):f.write(chunk)
Fish로 만드는 팀들의 활용 사례.
카메라 앞에서도 살아있는 음성
# 아바타 비디오AI 아바타 제품을 위한 입 모양 동기화 가능, 감정 인식 TTS. 인라인 방향 태그가 단순한 텍스트가 아닌 퍼포먼스를 이끌어냅니다.
리얼타임 대화형 AI
# 음성 에이전트WebSocket으로 1초 미만 턴테이킹. 스트리밍 TTS와 ASR을 하나의 스택으로 제공하며, 인터럽션을 인식합니다.
동적 음성 콘텐츠.
# 오디오 콘텐츠 & 컴패니언노트를 오디오로, 학습 도구, AI 컴패니언. 좌석이 아닌 사용량에 비례하는 문자당 과금.
30초 만에 복제. 또는 복제 없이 바로 시작.
# 캐릭터 앱30초 오디오로 IVC 즉시 복제. 스튜디오급 복제본을 위한 PVC. 또는 음성 라이브러리를 탐색하여 복제 없이 바로 배포.
실시간 스택을 위해 만들어졌습니다.
오픈 웨이트. 유료 상업 라이선스.
오픈소스 모델인 fish-speech, S1, S2는 유료 상업 라이선스와 함께 오픈 웨이트로 제공됩니다. 프로덕션 요구사항이 생기면 VPC, 온프레미스, 소버린 클라우드, 또는 에어갭 환경에 직접 배포할 수 있습니다. 자체 호스팅은 엔터프라이즈 티어 계약입니다 — 아래를 참조하세요.
15,000+ 개 방향 태그. 모든 호출에 인라인으로.
[warm], [near-whisper], [reassuring] — 방향 태그가 텍스트 자체와 함께 전달됩니다. 별도 파라미터도, 선택 목록도 없으며, 태그가 늘어나도 스키마 마이그레이션이 필요 없습니다.
Audio Turing Test: 0.515.
블라인드 평가에서 청취자들은 S2.1 Pro와 사람의 음성을 확실하게 구별하지 못했습니다. 581건의 1:1 비교. 방법론과 원본 오디오 모두 공개되어 있습니다.
$15 / 100만 자. 첫 호출부터.
HeyGen, Pictoria, Dubbing AI, Plaud가 사용하는 바로 그 모델. 첫 호출부터 종량제 과금. 프로덕션 요금 때문에 "문의하기"를 누를 일이 없습니다.
API를 사용하거나 모델을 직접 호스팅하세요
지금 당장 구축하는 팀을 위한 클라우드 API. 프로덕션 요구사항이 생기면 엔터프라이즈 계약으로 자체 호스팅.
Hosted API · 모든 팀
클라우드 API, 종량제, 백만 자당 $15. 모델을 직접 운영할 필요 없는 팀을 위한 가장 빠른 프로덕션 진입 경로.
- WebSocket 스트리밍, REST, Python + TypeScript SDK
- $15 / 1M UTF-8 bytes — 약정 없음
- 모든 호출에서 방향 태그 구문을 인라인으로 지정
- 오픈 웨이트로 제공되는 동일한 모델
모델 자체 호스팅
오픈소스 모델인 fish-speech, S1, S2는 유료 상업 라이선스와 함께 오픈 웨이트로 제공됩니다. VPC, 데이터 센터, 소버린 클라우드, 또는 에어갭 환경에 직접 배포할 수 있습니다. 데이터 상주, 파인튜닝, 또는 규제 환경 배포가 필요한 고용량 팀을 위한 프리미엄 계약입니다.
- WebSocket 스트리밍, REST, Python + TypeScript SDK
- $10k/월
- 실질 최소 비용: $120–150K/년
- 리서치 팀과의 직접 소통