限时优惠- 年付五折立即兑换

客户案例

面向 1000 万用户的实时语音代理 TTS。

Dubbing AI 如何基于 Fish Audio 构建 Voice Agent:这是唯一同时满足实时代理所需五项能力的 TTS,包括自然度、情绪深度、声音克隆质量、低延迟和多语言支持。

行业
消费级 · 游戏 · 娱乐
地区
全球
使用场景
语音代理(实时 TTS)
受众
1000 万+ 用户
部署方式
云 API · 桌面端与移动端
状态
Voice Agent 测试版
10M+

覆盖游戏、直播和娱乐等场景,这是语音代理必须在用户语言中实时保持真实感的规模。

Dubbing AI

Tiange Ling

Dubbing AI 首席执行官

"Fish Audio 提供了出色的语音自然度、丰富的情绪表达,以及可靠的低延迟 TTS,完美支撑了我们核心 Voice Agent 产品体验。"

Fish Audio 首席执行官

Rissa Cao

"语音代理是所有语音 AI 取舍都会被放大的使用场景。它不能又快又平,也不能有表现力却很慢。代理必须用用户的语言,在实时对话中听起来真实。Dubbing AI 正在构建其中最难的版本:当用户不能或不想自己说话时,替用户发声的声音。标准是身份级真实感,而这正是我们打造 S2 Pro 要达到的标准。"
Dubbing AI

关于 Dubbing AI — 覆盖语音创作、克隆和变声的 1000 万用户。

Dubbing AI 是一款本地端 AI 语音技术产品,在桌面端和移动端提供一站式语音创作、声音克隆和实时变声能力。该平台服务全球超过 1000 万用户,覆盖三类核心受众:内容创作者和主播、个人娱乐用户,以及广告代理商和媒体公司等商业用户。

Dubbing AI 是游戏玩家、主播和品牌创作者的语音层,让他们能够在自己活跃的平台上实时塑造、改变或克隆声音。

推出 Voice Agent —— 一个替你说话的代理。

Dubbing AI 最新功能 Voice Agent,将平台的语音工具箱从变声扩展到代替用户发声。它不再只是改变用户自己的声音,而是由 Voice Agent 替用户说话。

这些使用场景直接而真实。当游戏玩家正在争论中又不想升级冲突时,Voice Agent 可以替他们表达。当某个人太累而不想打电话订位时,Voice Agent 可以完成通话。当用户害羞、忙于工作,或暂时无法沟通时,Voice Agent 能让他们实时与他人互动。

这延续了 Dubbing AI 在平台所有功能中的产品使命,包括变声、口音优化、实时翻译,以及现在的 Voice Agent:帮助人们更顺畅地沟通,并更有效地表达自己。Voice Agent 将这一使命延伸到用户无法亲自开口,或亲自开口并不理想的场景中。

要让 Voice Agent 真正有效,AI 的声音必须听起来真实。听到声音的一方,无论是游戏对手、餐厅接待员,还是电话另一端的人,都应该感觉自己正在和真人对话,而不是听到明显的合成语音。这正是 Fish Audio 发挥作用的地方。

语音代理实时 TTS 的挑战:延迟与自然度。

语音代理让语音 AI 最难的取舍变得非常明显。面向语音代理的实时 TTS 必须在延迟、自然度和情绪之间取得平衡,而多数供应商都会迫使产品做选择。低延迟模型往往听起来平淡、机械;富有表现力的模型又容易带来处理延迟,打断对话流。

对 Dubbing AI Voice Agent 来说,两者同样关键。Voice Agent 如果在用户输入和语音回复之间出现明显停顿,就会打破“对方正在和真人说话”的错觉。Voice Agent 如果响应很快但声音像机器人,也会从另一个方向打破同样的错觉。决定性因素不是其中任意一个,而是二者的组合。

为什么 Dubbing AI 为语音代理基础设施评估 TTS 市场。

在选定 Fish Audio 之前,Dubbing AI 评估了多种 TTS 音频工作流。评估标准直接对应语音代理 TTS 的结构性要求:自然度、情绪深度、声音克隆质量、低延迟和多语言支持 —— 这五项能力多数供应商只能做到其中两三项,很少能全部满足。

对于一个服务 1000 万用户、覆盖游戏、娱乐和商业使用场景的 Voice Agent 来说,如果模型自然度很强但多语言能力不足,就会被淘汰;如果模型延迟优秀但压平了情绪,也会被淘汰。Voice Agent 这个场景要求五项能力缺一不可。

为什么 Fish Audio 赢得 Voice Agent 评估 —— 五项标准全部满足。

Fish Audio 的突出之处,是提供了 Dubbing AI 在其它方案中找不到的组合:实时语音代理所需的五项能力都达到要求。其它供应商即使在单项标准上表现突出,也会因为不适配 Voice Agent 场景而被排除。Fish 是唯一在每个评估维度上都站得住的模型。

· 自然度
输出语音听起来像真人在说话,而不是合成器在朗读。
· 情绪深度
情绪层次能够贯穿整段表达,而这正是多数低延迟模型会被压平的部分。
· 声音克隆质量
克隆声音能够在不同内容中保持身份一致性,这对 Dubbing AI 的创作者和娱乐用户尤其重要。
· 低延迟
没有明显处理等待的实时响应,这是任何对话式代理的基础约束。
· 多语言支持
支持 80 多种语言和自然代码切换,是面向全球用户 Voice Agent 的必要能力。

Dubbing AI 如何将 Fish Audio 用于实时语音代理 TTS。

Dubbing AI 通过云 API 在 Voice Agent 功能中部署 Fish Audio,用于实时文本转语音生成。当用户输入希望 Voice Agent 说出的文本时,Fish 会实时将其转换为自然且富有情绪表达的语音输出,并覆盖 Dubbing AI 全球用户所需的语言和口音。

Voice Agent 同时运行在桌面端和移动端,覆盖范围与 Dubbing AI 平台其它功能一致。Voice Agent 正准备首先面向平台的游戏玩家用户发布 beta 版本 —— 这是对 Voice Agent 使用场景需求最强的用户群。进入 beta 前,内部测试结果非常积极。

集成带来的结果。

使用产品:Fish Audio S2 Pro · 文本转语音(云 API)

Dubbing AI 更广泛平台上拥有 1000 万+ 用户,覆盖游戏、直播和商业创作者。

Fish Audio 满足 5/5 项评估标准:自然度、情绪深度、克隆质量、低延迟、多语言。

Voice Agent beta 将首先面向游戏玩家用户发布,内部测试结果积极。

跨平台部署在桌面端和移动端,与 Dubbing AI 的完整产品覆盖保持一致。

Dubbing AI 与 Fish Audio 的下一步。

随着 Voice Agent 从 beta 走向面向 Dubbing AI 1000 万用户的全面可用,Fish Audio 将继续作为驱动这一体验的实时 TTS 层。未来 Voice Agent 的扩展(覆盖更多语言、更多场景和更多跨平台环境)将与 Fish 持续的模型改进同步上线。

Fish Audio

正在构建语音代理

和我们的团队聊聊实时 TTS:在自然度、情感深度、延迟和多语言支持之间取得语音代理所需的五维平衡。