限时优惠- 年付五折立即兑换

面向企业的语音基础设施

为 HeyGen、Retell、Sierra 以及下一代语音 AI 构建者提供支持的高表现力、可控、实时语音模型。覆盖头像视频、语音智能体、角色应用、音频内容、多语言支持和保留音色的翻译等生产场景。

S2 Pro 正在实时运行。选择声音,输入台词,即刻回听。生产团队使用的同款模型,无需注册、无需销售电话,也不是演示环境。

80+
语言
2M+
声音库
$15/100 万字符
固定 API 费率
<150毫秒
首段音频 ( 云端 )

受到生产环境语音团队的信赖

语音 Agent 与对话式 AI
视频配音、译制与音乐
互动与社交
教育与学习

语音团队选择切换的六个理由。

大多数 TTS 在演示里听起来都不错。Fish 面向之后真正发生的事情而构建:生产流量、边界发音、多语言代码切换、主权部署,以及能让你规模化增长而不是勉强维持的总成本。

生产

列入 Artificial Analysis · 公开方法论

基准

为 HeyGen、Retell、Sierra、FinalRound 提供支持

发音

自定义字典 · 数字、姓名、领域术语

S2 Pro 已登上 Artificial Analysis 语音排行榜,并支撑 HeyGen、Retell 和 Sierra 的生产部署,处理真实流量、边界发音,以及会暴露基准测试盲点的多区域负载。

生产成果,不是演示胜利。

重点不是“质量很好”。而是团队切换之后取得了什么成果。每个故事都是客户写下的、可量化的结果。

在非美式英语口音的声音克隆中,以 3:1 胜出其他替代方案。

为 Picto VOICE 内的日语 AI 角色提供角色级表现力

1000 万+ 用户提供实时语音智能体 TTS,兼具自然度、情绪、低延迟和多语言能力。

为企业对话提供具备实时编排能力的生产级语音智能体。

实时低延迟提供在线面试辅导。

六类语音产品,
今天已经在生产环境交付。

从头像视频到多语言客服,下面每个类别都是真正在 Fish 上运行的企业部署,而不是路线图承诺。

面向 AI 智能体的语音

角色与陪伴应用。

头像视频

多语言客户支持。

普通话 · 日语 · 韩语 · 粤语

规模化声音克隆。

200 万声音生态 · 30 秒克隆

音频翻译与配音。

覆盖 80+ 语言 · 代码切换

接入你已经使用的语音智能体技术栈。

即插即用支持语音团队今天用于上线的编排、电话和基础设施工具。覆盖主流语言的 SDK。WebSocket 流式、REST 和入站 webhook 模式均有文档。

客户电话里真正重要的那些基础事项。

生产部署从 Enterprise 档位开始。更高承诺量可享受阶梯折扣,请联系销售获取与你流量画像匹配的价格。对于主权部署,premium 自托管档位采用独立的部署和承诺结构。

最高99%

可用性 SLA
premium enterprise 档位可用

<150毫秒

首段音频 (云端)
已在美国、欧盟、亚太区域验证

定制

并发流
High Volume 50+ · Enterprise 定制

80+

语言
具备原生质量声音与代码切换能力

为真实增长方式而构建。

一个企业档位。按字符固定计价。随着规模增长,跨多个阶梯叠加体量折扣,由同一个团队在同一份合同中完成协商。

生产部署从 Enterprise 档位开始。更高承诺量可享受阶梯折扣,请联系销售获取与你流量画像匹配的价格。对于主权部署,premium 自托管档位采用独立的部署和承诺结构。

计划包含
Enterprise 方案
条款与说明
起始价格
$999 / 月起
更高承诺阶梯可享体量折扣
TTS · S2 Pro
$15 / 100 万字符
按 UTF-8 字节计费 · 100 万约等于 18 万英文词
TTS · S1
$15 / 100 万字符
与 S2 Pro 相同的固定费率
ASR · transcribe-l
$0.36 / 音频小时
时长向上取整到最近一秒
并发
定制
High Volume 50+ · Enterprise 定制
声音
不限
无槽位配额 · 无单声音费用
结转
90 天
未使用额度向后结转 90 天
SLA
最高 99%
premium enterprise 档位可用
支持
专属 Slack 频道
可按需提供 SOC2 / HIPAA 合规支持
Self-host premium
$10K 部署费 + $10K / 月起
12 个月承诺 · VPC · 本地部署 · 隔离环境 · 主权云

多阶梯均可提供体量折扣,请联系销售获取匹配你流量画像的价格。公开价格体现 Enterprise 入门档位,更大承诺量可按客户进一步折扣。

准备好时,我们随时在。

和我们的团队聊聊你的部署计划。我们会带着准备来。

常见问题

我的数据存储在哪里?你们支持美国、欧盟和 APAC 数据驻留吗?

默认情况下,你的数据会保留在美国,托管在 Google Cloud,并使用 Cloudflare R2 存储;推理会从美国和亚太地区(东京)的边缘区域运行,让你的用户无论在哪里都能获得低延迟。对于受合规约束的工作负载,企业合同可以开启 Zero Data Retention,这意味着请求文本和音频永远不会写入磁盘。如果你的数据必须留在特定国家或地区,self-hosted enterprise 档位会完全运行在你自己的基础设施内,因此数据不会离开你的环境。

你们能支持大规模部署和流量峰值吗?

可以,而且可以支持很大的规模。容量会以并发生成数的形式按合同配置并扩展,我们已经有生产客户运行超过 1,000 路并发生成。Rust 边缘网关会在多个 GPU 区域之间服务推理,因此当流量激增时,我们的团队可以在当天提升你的限制。你可以扩容,而不必排队等待支持工单。

你们有哪些安全认证?

安全贯穿平台的每一层。我们的 SOC 2 Type II 审计正在进行中,完成后报告可在 NDA 下提供给客户。企业合同可使用 Zero Data Retention,因此请求载荷不会被持久化;self-hosted 档位会把你的每一字节数据都留在自己的环境内。我们也支持符合 HIPAA 要求的配置,并可为符合条件的医疗健康工作负载签署 BAA;独立渗透测试也是我们持续合规计划的一部分。

你们是否为自定义部署提供工程支持?

当然。企业客户可以直接联系我们的工程团队,而不是进入工单队列,并可使用最适合你团队工作方式的沟通渠道。我们会定期为单个客户交付面向其集成的功能和协议扩展,也会与你们一起端到端落地 self-hosted 部署,从首次设置直到 go-live。

你们支持 SSO 和 RBAC 吗?

支持,并且从一开始就提供细粒度控制。基于角色的访问控制允许你在团队级别分配 owner、admin 和 member 角色,并在 workspace 级别分配 manager、contributor 和 viewer 角色,确保每个人只拥有应有的访问权限。单点登录目前支持 Google 和 GitHub OAuth。

我们可以用自己的数据微调模型,或使用自己的声音吗?

两者都可以,并且由你掌控。你可以通过 API 或 Web UI,使用短至 10 秒的参考音频立即创建私有声音克隆,30 秒或更长音频效果最佳;这些声音会完全私有地保留在你的团队内。对于更深入的合作,我们也会使用你自己的数据微调定制模型。

如果从其他语音供应商迁移怎么办?

迁移到 Fish Audio 很直接,而且大多数团队都会惊讶于速度有多快。你的现有声音可以通过参考音频重新创建,我们的 Python、TypeScript 和 Go SDK 以及 WebSocket 流式 API 覆盖你已经依赖的集成模式,我们的工程团队会与你一起执行切换,确保生产不中断。