面向 1000 万用户的实时语音代理 TTS。
Dubbing AI 如何基于 Fish Audio 构建 Voice Agent:这是唯一同时满足实时代理所需五项能力的 TTS,包括自然度、情绪深度、声音克隆质量、低延迟和多语言支持。
Dubbing AI 如何基于 Fish Audio 构建 Voice Agent:这是唯一同时满足实时代理所需五项能力的 TTS,包括自然度、情绪深度、声音克隆质量、低延迟和多语言支持。
覆盖游戏、直播和娱乐等场景,这是语音代理必须在用户语言中实时保持真实感的规模。
Tiange Ling
Dubbing AI 首席执行官
"Fish Audio 提供了出色的语音自然度、丰富的情绪表达,以及可靠的低延迟 TTS,完美支撑了我们核心 Voice Agent 产品体验。"
Fish Audio 首席执行官
Rissa Cao

"语音代理是所有语音 AI 取舍都会被放大的使用场景。它不能又快又平,也不能有表现力却很慢。代理必须用用户的语言,在实时对话中听起来真实。Dubbing AI 正在构建其中最难的版本:当用户不能或不想自己说话时,替用户发声的声音。标准是身份级真实感,而这正是我们打造 S2 Pro 要达到的标准。"

Dubbing AI 是一款本地端 AI 语音技术产品,在桌面端和移动端提供一站式语音创作、声音克隆和实时变声能力。该平台服务全球超过 1000 万用户,覆盖三类核心受众:内容创作者和主播、个人娱乐用户,以及广告代理商和媒体公司等商业用户。
Dubbing AI 是游戏玩家、主播和品牌创作者的语音层,让他们能够在自己活跃的平台上实时塑造、改变或克隆声音。
Dubbing AI 最新功能 Voice Agent,将平台的语音工具箱从变声扩展到代替用户发声。它不再只是改变用户自己的声音,而是由 Voice Agent 替用户说话。
这些使用场景直接而真实。当游戏玩家正在争论中又不想升级冲突时,Voice Agent 可以替他们表达。当某个人太累而不想打电话订位时,Voice Agent 可以完成通话。当用户害羞、忙于工作,或暂时无法沟通时,Voice Agent 能让他们实时与他人互动。
这延续了 Dubbing AI 在平台所有功能中的产品使命,包括变声、口音优化、实时翻译,以及现在的 Voice Agent:帮助人们更顺畅地沟通,并更有效地表达自己。Voice Agent 将这一使命延伸到用户无法亲自开口,或亲自开口并不理想的场景中。
要让 Voice Agent 真正有效,AI 的声音必须听起来真实。听到声音的一方,无论是游戏对手、餐厅接待员,还是电话另一端的人,都应该感觉自己正在和真人对话,而不是听到明显的合成语音。这正是 Fish Audio 发挥作用的地方。

语音代理让语音 AI 最难的取舍变得非常明显。面向语音代理的实时 TTS 必须在延迟、自然度和情绪之间取得平衡,而多数供应商都会迫使产品做选择。低延迟模型往往听起来平淡、机械;富有表现力的模型又容易带来处理延迟,打断对话流。
对 Dubbing AI Voice Agent 来说,两者同样关键。Voice Agent 如果在用户输入和语音回复之间出现明显停顿,就会打破“对方正在和真人说话”的错觉。Voice Agent 如果响应很快但声音像机器人,也会从另一个方向打破同样的错觉。决定性因素不是其中任意一个,而是二者的组合。
在选定 Fish Audio 之前,Dubbing AI 评估了多种 TTS 音频工作流。评估标准直接对应语音代理 TTS 的结构性要求:自然度、情绪深度、声音克隆质量、低延迟和多语言支持 —— 这五项能力多数供应商只能做到其中两三项,很少能全部满足。
对于一个服务 1000 万用户、覆盖游戏、娱乐和商业使用场景的 Voice Agent 来说,如果模型自然度很强但多语言能力不足,就会被淘汰;如果模型延迟优秀但压平了情绪,也会被淘汰。Voice Agent 这个场景要求五项能力缺一不可。

Fish Audio 的突出之处,是提供了 Dubbing AI 在其它方案中找不到的组合:实时语音代理所需的五项能力都达到要求。其它供应商即使在单项标准上表现突出,也会因为不适配 Voice Agent 场景而被排除。Fish 是唯一在每个评估维度上都站得住的模型。
Dubbing AI 通过云 API 在 Voice Agent 功能中部署 Fish Audio,用于实时文本转语音生成。当用户输入希望 Voice Agent 说出的文本时,Fish 会实时将其转换为自然且富有情绪表达的语音输出,并覆盖 Dubbing AI 全球用户所需的语言和口音。
Voice Agent 同时运行在桌面端和移动端,覆盖范围与 Dubbing AI 平台其它功能一致。Voice Agent 正准备首先面向平台的游戏玩家用户发布 beta 版本 —— 这是对 Voice Agent 使用场景需求最强的用户群。进入 beta 前,内部测试结果非常积极。
使用产品:Fish Audio S2 Pro · 文本转语音(云 API)
Dubbing AI 更广泛平台上拥有 1000 万+ 用户,覆盖游戏、直播和商业创作者。
Fish Audio 满足 5/5 项评估标准:自然度、情绪深度、克隆质量、低延迟、多语言。
Voice Agent beta 将首先面向游戏玩家用户发布,内部测试结果积极。
跨平台部署在桌面端和移动端,与 Dubbing AI 的完整产品覆盖保持一致。