엔터프라이즈를 위한음성 인프라

HeyGen, Retell, Sierra 그리고 차세대 음성 AI 빌더들이 사용하는 표현력 있고 제어 가능한 실시간 음성 모델입니다. 아바타 영상, 음성 에이전트, 캐릭터 앱, 오디오 콘텐츠, 다국어 지원, 목소리를 보존하는 번역까지 프로덕션 환경에서 사용할 수 있습니다.

영업팀에 문의 모델 들어보기 가격 보기

S2 Pro가 라이브로 실행 중입니다. 목소리를 고르고 문장을 입력하면 바로 들어볼 수 있습니다. 가입, 영업 통화, 데모 환경 없이 프로덕션 팀이 쓰는 동일한 모델을 사용할 수 있습니다.

80+

언어

2M+

음성 라이브러리

$15/100만 자

고정 API 요금

<150ms

첫 오디오까지 ( 클라우드 )

프로덕션에서 음성을 만드는 팀들이 신뢰합니다

음성 에이전트 및 대화형 AI

비디오 보이스오버, 더빙 및 음악

인터랙티브 및 소셜

교육 및 학습

음성 팀이 전환하는 여섯 가지 이유.

대부분의 TTS는 데모에서는 괜찮게 들립니다. Fish는 그다음 단계인 프로덕션 트래픽, 까다로운 발음, 다국어 코드 스위칭, 주권형 배포, 그리고 버티는 데 그치지 않고 확장할 수 있는 총비용을 위해 만들어졌습니다.

프로덕션

Artificial Analysis 등재 · 공개 방법론

벤치마크

HeyGen, Retell, Sierra, FinalRound 지원

발음

사용자 지정 사전 · 숫자, 이름, 도메인 용어

S2 Pro는 Artificial Analysis 음성 리더보드에 등재되어 있으며 HeyGen, Retell, Sierra의 프로덕션 배포를 지원합니다. 실제 트래픽, 까다로운 발음, 벤치마크가 놓치기 쉬운 다중 리전 부하까지 처리합니다.

프로덕션

Artificial Analysis 등재 · 공개 방법론

발음

사용자 지정 사전 · 숫자, 이름, 도메인 용어

벤치마크

HeyGen, Retell, Sierra, FinalRound 지원

15,000개 이상의 자연어 디렉션 태그. 원하는 표현을 — {따뜻한, 대화체, 약간의 보스턴 억양, 부드럽게 내려가는 어미} — 처럼 설명하면 Fish가 그대로 렌더링합니다. S2 Pro는 공개 점수 0.515의 Audio Turing Test를 통과했습니다. 청자는 사람의 음성과 안정적으로 구분하지 못합니다. 방법론과 원본 오디오는 공개되어 있습니다.

중국어, 일본어, 한국어, 광둥어를 네이티브 품질로 제공하며 영어, 중국어, 일본어, 스페인어, 아랍어 간 즉시 코드 스위칭을 지원합니다. 다른 음성 벤더가 다음 분기에 제공하겠다고 약속하는 APAC 커버리지가 오늘 이미 프로덕션에서 제공됩니다.

크리에이터가 학습한 200만 개 이상의 음성을 바로 탐색해 사용할 수 있고, 30초 오디오로 나만의 음성을 클론할 수도 있습니다. 슬롯 할당량도, 음성당 요금도 없습니다. 음성 클로닝 워크플로에는 동의 확인이 내장되어 있습니다.

규제 대상 워크로드, 주권형 배포, 프로덕션에서 실행되는 모델을 완전히 제어해야 하는 팀을 위해 Fish는 프리미엄 엔터프라이즈 티어로 셀프 호스팅을 제공합니다. 자체 VPC, 에어갭 환경 또는 데이터센터에서 실행하세요. 조달 과정에서 요구하지만 좀처럼 얻기 어려운 아키텍처입니다.

100만 문자당 $15. 첫 API 호출부터 10억 번째 호출까지 동일한 문자당 요율로, 고정적이고 예측 가능합니다. 규모가 커질수록 여러 티어에 걸쳐 볼륨 할인이 누적되며, 한 팀과 하나의 계약으로 협상합니다. 좌석 요금도, 프로덕션 요율을 위한 예상치 못한 게이트도 없습니다.

프로덕션 성과,데모에서의 승리가 아닙니다.

핵심은 품질이라는 말이 아니라, 전환 후 팀이 무엇을 달성했는지입니다. 각 이야기는 고객이 직접 작성한 정량화된 결과입니다.

비미국식 영어 억양 음성 클로닝에서 대안 대비 3대 1로 선택되었습니다.

Picto VOICE 안의 일본어 AI 캐릭터에 캐릭터 수준의 표현력을 제공합니다.

1,000만 명 이상 사용자를 위한 실시간 음성 에이전트 TTS - 자연스러움, 감정, 지연 시간, 다국어.

엔터프라이즈 대화를 위한 실시간 오케스트레이션 기반 프로덕션 음성 에이전트.

라이브 면접 코칭을 실시간 지연 시간으로 제공합니다.

여섯 가지 음성 제품 범주가,
오늘 프로덕션에서 출시되고 있습니다.

아바타 영상부터 다국어 고객 지원까지, 아래 모든 범주는 로드맵 약속이 아니라 Fish에서 실행 중인 실제 엔터프라이즈 배포입니다.

AI 에이전트를 위한 음성

캐릭터 및 컴패니언 앱.

아바타 영상

다국어 고객 지원.

중국어 · 일본어 · 한국어 · 광둥어

대규모 음성 클로닝.

200만 음성 생태계 · 30초 클론

오디오 번역 및 더빙.

80개 이상 모든 언어 · 코드 스위칭

이미 사용하는 음성 에이전트 스택에 연결됩니다.

음성 팀이 오늘 출시할 때 쓰는 오케스트레이션, 전화, 인프라 도구를 드롭인으로 지원합니다. 주요 언어 SDK, WebSocket 스트리밍, REST, 인바운드 webhook 패턴을 문서화했습니다.

실시간 파이프라인

WebRTC 인프라

워크플로 자동화

음성 에이전트 플랫폼

전화 · SIP · SMS

음성 에이전트 오케스트레이션

실시간 파이프라인

WebRTC 인프라

워크플로 자동화

음성 에이전트 플랫폼

전화 · SIP · SMS

음성 에이전트 오케스트레이션

고객 통화에서 실제로 중요한 기본 사항.

프로덕션 배포는 Enterprise 티어에서 시작합니다. 더 높은 약정 수준에서는 볼륨 할인이 적용됩니다. 트래픽 프로필에 맞는 가격은 영업팀에 문의하세요. 주권형 배포에는 별도 설정 및 약정 구조의 premium 셀프 호스트 티어가 제공됩니다.

최대99%

가동 시간 SLA
premium enterprise 티어에서 제공

<150ms

첫 오디오 (클라우드)
미국, EU, APAC 리전에서 검증

Custom

동시 스트림
High Volume 50+ · Enterprise 맞춤

80+

언어
네이티브 품질 음성과 코드 스위칭 지원

실제로 성장하는 방식에 맞춰 구축.

하나의 엔터프라이즈 티어. 문자당 고정 가격. 규모가 커질수록 여러 티어에 걸쳐 누적되는 볼륨 할인을 한 팀, 한 계약으로 협상합니다.

플랜 포함 사항

Enterprise 플랜

조건 및 참고

시작 가격

월 $999부터

더 높은 약정 티어에서 볼륨 할인

TTS · S2 Pro

$15 / 100만 자

UTF-8 바이트 기준 과금 · 100만당 영어 약 18만 단어

TTS · S1

$15 / 100만 자

S2 Pro와 동일한 고정 요금

ASR · transcribe-l

$0.36 / 오디오 시간

가장 가까운 초 단위로 올림

동시성

Custom

High Volume 50+ · Enterprise 맞춤

음성

무제한

슬롯 할당량 없음 · 음성별 요금 없음

이월

90일

미사용 크레딧 90일 이월

SLA

최대 99%

premium enterprise 티어에서 제공

지원

전용 Slack 채널

요청 시 SOC2 / HIPAA 컴플라이언스

Self-host premium

설정 $10K + 월 $10K부터

12개월 약정 · VPC · 온프레미스 · 에어갭 · 주권 클라우드

여러 티어에서 볼륨 할인을 사용할 수 있습니다. 트래픽 프로필에 맞는 가격은 영업팀에 문의하세요. 공개 가격은 Enterprise 티어 진입 기준이며, 더 큰 약정은 고객별 추가 할인을 제공합니다.

준비되면 바로 시작할 수 있습니다.

배포 계획을 저희 팀과 이야기해 주세요. 준비해서 만나겠습니다.

영업팀에 문의

자주 묻는 질문

내 데이터는 어디에 저장되나요? 미국, EU, APAC 데이터 레지던시를 지원하나요?

기본적으로 데이터는 미국에 보관되며 Google Cloud에 호스팅되고 Cloudflare R2 스토리지를 사용합니다. 추론은 미국과 아시아 태평양(도쿄)의 edge 리전에서 실행되어 사용자가 어디에 있든 낮은 지연 시간을 제공합니다. 컴플라이언스가 필요한 워크로드의 경우 enterprise 계약에서 Zero Data Retention을 활성화할 수 있으며, 이는 요청 텍스트와 오디오가 디스크에 기록되지 않는다는 뜻입니다. 데이터가 특정 국가나 지역 안에 머물러야 한다면 self-hosted enterprise 티어가 고객의 자체 인프라 안에서 완전히 실행되므로 어떤 데이터도 고객 환경을 벗어나지 않습니다.

대규모 배포와 트래픽 급증을 지원할 수 있나요?

예, 매우 큰 규모도 지원합니다. 용량은 계약에 따라 확장되는 동시 생성 수로 프로비저닝되며, 이미 1,000개 이상의 동시 생성을 운영 중인 프로덕션 고객이 있습니다. Rust edge gateway가 여러 GPU 리전에서 추론을 제공하므로 트래픽이 급증하면 저희 팀이 당일에 한도를 올릴 수 있습니다. 지원 티켓 대기열에 머무르지 않고 바로 확장할 수 있습니다.

어떤 보안 인증을 보유하고 있나요?

보안은 플랫폼의 모든 계층에 적용됩니다. SOC 2 Type II 감사는 현재 진행 중이며, 완료되면 NDA 하에 고객에게 보고서를 제공할 예정입니다. Zero Data Retention은 enterprise 계약에서 사용할 수 있어 요청 payload가 저장되지 않으며, self-hosted 티어는 고객 데이터의 모든 바이트를 고객 환경 안에 유지합니다. 또한 HIPAA에 부합하는 구성을 지원하고 조건을 충족하는 헬스케어 워크로드에는 BAA를 체결할 수 있으며, 독립적인 침투 테스트가 지속적인 컴플라이언스 프로그램의 일부로 진행됩니다.

맞춤 배포를 위한 엔지니어링 지원을 제공하나요?

물론입니다. enterprise 고객은 티켓 대기열이 아니라 팀의 업무 방식에 맞는 채널에서 저희 엔지니어링 팀과 직접 연결됩니다. 저희는 개별 고객을 위해 통합별 기능과 프로토콜 확장을 정기적으로 제공하며, self-hosted 배포도 첫 설정부터 go-live까지 end-to-end로 함께 구축합니다.

SSO와 RBAC를 지원하나요?

예, 첫날부터 세밀한 제어를 제공합니다. 역할 기반 접근 제어를 통해 팀 수준에서는 owner, admin, member 역할을, workspace 수준에서는 manager, contributor, viewer 역할을 부여할 수 있어 모든 사람이 필요한 만큼의 접근 권한만 갖게 됩니다. Single sign-on은 현재 Google 및 GitHub OAuth로 동작합니다.

자사 데이터로 모델을 파인튜닝하거나 자체 음성을 사용할 수 있나요?

둘 다 가능하며, 고객의 조건에 맞춰 진행합니다. API 또는 web UI를 통해 최소 10초의 reference audio로 private voice clone을 즉시 만들 수 있고, 최상의 결과에는 30초 이상을 권장합니다. 생성된 voice clone은 팀 내부에 완전히 비공개로 유지됩니다. 더 깊은 협업에서는 고객 데이터로 custom model도 fine-tune합니다.

다른 음성 공급업체에서 이전하는 경우는 어떻게 되나요?

Fish Audio로의 마이그레이션은 간단하며, 대부분의 팀은 그 속도에 놀랍니다. 기존 음성은 reference audio로 다시 생성해 가져올 수 있고, Python, TypeScript, Go SDK와 WebSocket streaming API가 이미 사용 중인 통합 패턴을 지원합니다. 저희 엔지니어링 팀이 함께 cutover를 진행해 프로덕션이 멈추지 않도록 합니다.