1,000만 사용자를 위한 실시간 보이스 에이전트 TTS.
Dubbing AI가 Fish Audio에서 Voice Agent를 구축한 방식입니다. 실시간 에이전트가 요구하는 자연스러움, 감정 표현, 음성 클로닝 품질, 낮은 지연 시간, 다국어 지원을 모두 제공한 TTS입니다.
Dubbing AI가 Fish Audio에서 Voice Agent를 구축한 방식입니다. 실시간 에이전트가 요구하는 자연스러움, 감정 표현, 음성 클로닝 품질, 낮은 지연 시간, 다국어 지원을 모두 제공한 TTS입니다.
게임, 스트리밍, 엔터테인먼트 전반에서 보이스 에이전트가 사용자의 언어로 실시간으로 실제처럼 느껴져야 하는 규모입니다.
Tiange Ling
Dubbing AI CEO
"Fish Audio는 뛰어난 음성 자연스러움, 풍부한 감정 표현, 안정적인 저지연 TTS를 제공해 핵심 Voice Agent 제품 경험을 완벽하게 뒷받침합니다."
Fish Audio CEO
Rissa Cao

"보이스 에이전트는 모든 음성 AI의 트레이드오프가 드러나는 사용 사례입니다. 빠르지만 밋밋하거나, 표현력은 있지만 느려서는 안 됩니다. 에이전트는 사용자의 언어로, 실시간으로, 실제처럼 들려야 합니다. Dubbing AI는 이 중 가장 어려운 버전을 만들고 있습니다. 사용자가 말할 수 없거나 말하고 싶지 않을 때 사용자를 대신해 말하는 목소리입니다. 기준은 정체성 수준의 사실감이며, 우리는 그 기준을 넘기 위해 S2 Pro를 만들었습니다."

Dubbing AI는 데스크톱과 모바일 전반에서 음성 생성, 음성 클로닝, 실시간 음성 변조를 한 번에 제공하는 로컬 엔드 AI 음성 기술 제품입니다. 이 플랫폼은 전 세계 1,000만 명 이상의 사용자를 세 가지 핵심 그룹에서 지원합니다: 콘텐츠 크리에이터와 스트리머, 개인 엔터테인먼트 사용자, 광고 대행사와 미디어 회사를 포함한 상업 사용자.
Dubbing AI는 게이머, 스트리머, 브랜드 크리에이터가 활동하는 플랫폼에서 실시간으로 목소리를 만들고, 바꾸고, 클론할 수 있게 하는 음성 레이어입니다.
Dubbing AI의 최신 기능인 Voice Agent는 플랫폼의 음성 도구를 보이스 체인징에서 사용자를 대신해 말하는 기능으로 확장합니다. 사용자의 목소리를 바꾸는 대신, Voice Agent가 사용자를 대신해 말합니다.
사용 사례는 즉각적이고 인간적입니다. 게이머가 논쟁 중이지만 상황을 키우고 싶지 않을 때 Voice Agent가 대신 말할 수 있습니다. 누군가 너무 피곤해서 전화 예약을 하기 어렵다면 Voice Agent가 예약 전화를 합니다. 사용자가 부끄럽거나, 일로 바쁘거나, 일시적으로 소통할 수 없을 때도 Voice Agent는 실시간 상호작용을 가능하게 합니다.
이는 보이스 체인징, 억양 개선, 실시간 번역, 그리고 이제 Voice Agent까지 Dubbing AI 플랫폼 전반의 제품 미션을 확장한 것입니다: 사람들이 더 매끄럽게 소통하고 자신을 더 효과적으로 표현하도록 돕는 것. Voice Agent는 사용자가 직접 말할 수 없거나 직접 말하는 것이 이상적이지 않은 상황으로 이 미션을 확장합니다.
Voice Agent가 제대로 작동하려면 AI의 목소리가 실제처럼 느껴져야 합니다. 게임 상대, 식당 직원, 전화 반대편의 사람은 명백한 합성음이 아니라 실제 사람과 대화하고 있다고 느껴야 합니다. 바로 그 지점에서 Fish Audio가 필요했습니다.

음성 에이전트는 음성 AI에서 가장 어려운 절충을 드러냅니다. 음성 에이전트용 실시간 TTS는 지연 시간과 자연스러움, 감정 표현 사이의 균형을 맞춰야 하지만 대부분의 제공업체는 선택을 강요합니다. 저지연 모델은 평평하고 기계적으로 들리는 경향이 있고, 표현력이 높은 모델은 대화 흐름을 깨는 처리 지연을 만들기 쉽습니다.
Dubbing AI Voice Agent에서는 두 요소가 모두 중요합니다. 사용자 입력과 음성 응답 사이에 눈에 띄는 정지가 생기면 상대가 실제 사람과 대화하고 있다는 느낌이 깨집니다. 즉시 응답하지만 로봇처럼 들려도 같은 느낌이 다른 방식으로 깨집니다. 결정적인 요소는 둘 중 하나가 아니라 조합입니다.
Dubbing AI는 Fish Audio를 선택하기 전에 여러 TTS 오디오 워크플로를 평가했습니다. 평가 기준은 음성 에이전트용 TTS가 요구하는 구조적 조건과 직접 연결되었습니다: 자연스러움, 감정 깊이, 음성 클로닝 품질, 낮은 지연 시간, 다국어 지원 — 대부분의 제공업체가 두세 가지는 충족하지만 다섯 가지를 모두 충족하는 경우는 드뭅니다.
게임, 엔터테인먼트, 상업적 사용 사례 전반에서 1,000만 명의 사용자를 지원하는 Voice Agent에서는 자연스러움은 뛰어나지만 다국어가 부족한 모델은 탈락했습니다. 지연 시간은 뛰어나지만 감정을 평평하게 만드는 모델도 탈락했습니다. Voice Agent 사용 사례는 다섯 가지를 모두 충족해야 하는 평가를 요구했습니다.

Fish Audio는 Dubbing AI가 다른 곳에서 찾지 못한 조합으로 두드러졌습니다. 실시간 음성 에이전트가 요구하는 수준의 다섯 가지 능력을 모두 갖췄기 때문입니다. 다른 제공업체의 단일 기준 우수 모델은 Voice Agent 사용 사례에서는 제외되었습니다. Fish는 모든 평가 차원에서 자리를 얻은 유일한 모델이었습니다.
Dubbing AI는 Voice Agent 기능 안에서 실시간 텍스트 음성 변환 생성을 위해 클라우드 API로 Fish Audio를 배포합니다. 사용자가 Voice Agent가 말하길 원하는 텍스트를 작성하면 Fish는 이를 Dubbing AI의 글로벌 사용자 기반에 필요한 언어와 억양 전반에서 자연스럽고 감정 표현이 풍부한 음성으로 실시간 변환합니다.
Voice Agent는 데스크톱과 모바일 모두에서 크로스 플랫폼으로 실행되어 Dubbing AI 플랫폼의 다른 기능과 같은 범위를 지원합니다. Voice Agent는 플랫폼의 게이머 사용자층을 대상으로 먼저 베타 출시를 준비하고 있습니다 — Voice Agent가 만들어진 사용 사례에 대한 수요가 가장 강한 사용자 세그먼트입니다. 베타를 앞둔 내부 테스트 결과는 매우 긍정적입니다.
사용 제품: Fish Audio S2 Pro · Text-to-Speech (cloud API)
게임, 스트리밍, 상업 크리에이터 전반의 Dubbing AI 플랫폼에서 1,000만 명 이상의 사용자.
Fish Audio는 자연스러움, 감정 깊이, 클로닝 품질, 낮은 지연 시간, 다국어 등 5개 평가 기준을 모두 충족했습니다.
Voice Agent 베타는 게이머 사용자층에 먼저 출시될 예정이며 내부 테스트 결과가 긍정적입니다.
데스크톱과 모바일에 걸친 크로스 플랫폼 배포로 Dubbing AI 전체 제품 범위와 일치합니다.
자연스러움, 감정 깊이, 지연 시간, 다국어 지원을 균형 있게 제공하는 보이스 에이전트용 실시간 TTS에 대해 팀과 상담하세요.