面向企业的语音基础设施

为 HeyGen、Retell、Sierra 以及下一代语音 AI 构建者提供支持的高表现力、可控、实时语音模型。覆盖头像视频、语音智能体、角色应用、音频内容、多语言支持和保留音色的翻译等生产场景。

联系销售试听模型查看价格

S2 Pro 正在实时运行。选择声音，输入台词，即刻回听。生产团队使用的同款模型，无需注册、无需销售电话，也不是演示环境。

80+

语言

2M+

声音库

$15/100 万字符

固定 API 费率

<150毫秒

首段音频 ( 云端 )

受到生产环境语音团队的信赖

语音 Agent 与对话式 AI

视频配音、译制与音乐

互动与社交

教育与学习

语音团队选择切换的六个理由。

大多数 TTS 在演示里听起来都不错。Fish 面向之后真正发生的事情而构建：生产流量、边界发音、多语言代码切换、主权部署，以及能让你规模化增长而不是勉强维持的总成本。

生产

列入 Artificial Analysis · 公开方法论

基准

为 HeyGen、Retell、Sierra、FinalRound 提供支持

发音

自定义字典 · 数字、姓名、领域术语

S2 Pro 已登上 Artificial Analysis 语音排行榜，并支撑 HeyGen、Retell 和 Sierra 的生产部署，处理真实流量、边界发音，以及会暴露基准测试盲点的多区域负载。

生产

列入 Artificial Analysis · 公开方法论

发音

自定义字典 · 数字、姓名、领域术语

基准

为 HeyGen、Retell、Sierra、FinalRound 提供支持

S2 Pro 已登上 Artificial Analysis 语音排行榜，并支撑 HeyGen、Retell 和 Sierra 的生产部署，处理真实流量、边界发音，以及会暴露基准测试盲点的多区域负载。

15,000+ 个自然语言方向标签。描述你想要的效果 — {温暖、对话感、轻微波士顿口音、以柔和下落音收尾} — Fish 就会渲染出来。S2 Pro 通过了已发布 0.515 分的音频图灵测试：听众无法可靠地区分它与真人语音。方法论和原始音频均公开。

原生品质的中文、日语、韩语和粤语，并支持英语、中文、日语、西班牙语和阿拉伯语之间的即时代码切换。其他语音厂商还在承诺下季度交付的 APAC 覆盖，今天已经在生产环境运行。

浏览 200 万+ 个创作者训练的声音，今天即可使用；也可以用 30 秒音频克隆你自己的声音。没有席位配额，没有按声音收费。声音克隆流程内置同意验证。

面向受监管工作负载、主权部署，以及需要完全掌控生产模型运行方式的团队，Fish 提供高级企业自托管层。可运行在你的 VPC、隔离环境或数据中心。它提供采购架构时常被要求、却很少真正拿到的能力。

每百万字符 $15，固定、可预测，从第一次 API 调用到第十亿次调用都使用同一按字符费率。随着规模扩大，多个阶梯的批量折扣会叠加，并由同一个团队统一协商。无席位费。无生产费率的意外门槛。

S2 Pro 已登上 Artificial Analysis 语音排行榜，并支撑 HeyGen、Retell 和 Sierra 的生产部署，处理真实流量、边界发音，以及会暴露基准测试盲点的多区域负载。

生产成果，不是演示胜利。

重点不是“质量很好”。而是团队切换之后取得了什么成果。每个故事都是客户写下的、可量化的结果。

在非美式英语口音的声音克隆中，以 3:1 胜出其他替代方案。

为 Picto VOICE 内的日语 AI 角色提供角色级表现力。

为 1000 万+ 用户提供实时语音智能体 TTS，兼具自然度、情绪、低延迟和多语言能力。

为企业对话提供具备实时编排能力的生产级语音智能体。

以实时低延迟提供在线面试辅导。

六类语音产品，
今天已经在生产环境交付。

从头像视频到多语言客服，下面每个类别都是真正在 Fish 上运行的企业部署，而不是路线图承诺。

面向 AI 智能体的语音

角色与陪伴应用。

头像视频

多语言客户支持。

普通话 · 日语 · 韩语 · 粤语

规模化声音克隆。

200 万声音生态 · 30 秒克隆

音频翻译与配音。

覆盖 80+ 语言 · 代码切换

接入你已经使用的语音智能体技术栈。

即插即用支持语音团队今天用于上线的编排、电话和基础设施工具。覆盖主流语言的 SDK。WebSocket 流式、REST 和入站 webhook 模式均有文档。

实时管线

WebRTC 基础设施

工作流自动化

语音智能体平台

电话 · SIP · SMS

语音智能体编排

实时管线

WebRTC 基础设施

工作流自动化

语音智能体平台

电话 · SIP · SMS

语音智能体编排

客户电话里真正重要的那些基础事项。

生产部署从 Enterprise 档位开始。更高承诺量可享受阶梯折扣，请联系销售获取与你流量画像匹配的价格。对于主权部署，premium 自托管档位采用独立的部署和承诺结构。

最高99%

可用性 SLA
premium enterprise 档位可用

<150毫秒

首段音频 (云端)
已在美国、欧盟、亚太区域验证

定制

并发流
High Volume 50+ · Enterprise 定制

80+

语言
具备原生质量声音与代码切换能力

为真实增长方式而构建。

一个企业档位。按字符固定计价。随着规模增长，跨多个阶梯叠加体量折扣，由同一个团队在同一份合同中完成协商。

计划包含

Enterprise 方案

条款与说明

起始价格

$999 / 月起

更高承诺阶梯可享体量折扣

TTS · S2 Pro

$15 / 100 万字符

按 UTF-8 字节计费 · 100 万约等于 18 万英文词

TTS · S1

$15 / 100 万字符

与 S2 Pro 相同的固定费率

ASR · transcribe-l

$0.36 / 音频小时

时长向上取整到最近一秒

并发

定制

High Volume 50+ · Enterprise 定制

声音

不限

无槽位配额 · 无单声音费用

结转

90 天

未使用额度向后结转 90 天

SLA

最高 99%

premium enterprise 档位可用

支持

专属 Slack 频道

可按需提供 SOC2 / HIPAA 合规支持

Self-host premium

$10K 部署费 + $10K / 月起

12 个月承诺 · VPC · 本地部署 · 隔离环境 · 主权云

多阶梯均可提供体量折扣，请联系销售获取匹配你流量画像的价格。公开价格体现 Enterprise 入门档位，更大承诺量可按客户进一步折扣。

准备好时，我们随时在。

和我们的团队聊聊你的部署计划。我们会带着准备来。

联系销售

常见问题

我的数据存储在哪里？你们支持美国、欧盟和 APAC 数据驻留吗？

默认情况下，你的数据会保留在美国，托管在 Google Cloud，并使用 Cloudflare R2 存储；推理会从美国和亚太地区（东京）的边缘区域运行，让你的用户无论在哪里都能获得低延迟。对于受合规约束的工作负载，企业合同可以开启 Zero Data Retention，这意味着请求文本和音频永远不会写入磁盘。如果你的数据必须留在特定国家或地区，self-hosted enterprise 档位会完全运行在你自己的基础设施内，因此数据不会离开你的环境。

你们能支持大规模部署和流量峰值吗？

可以，而且可以支持很大的规模。容量会以并发生成数的形式按合同配置并扩展，我们已经有生产客户运行超过 1,000 路并发生成。Rust 边缘网关会在多个 GPU 区域之间服务推理，因此当流量激增时，我们的团队可以在当天提升你的限制。你可以扩容，而不必排队等待支持工单。

你们有哪些安全认证？

安全贯穿平台的每一层。我们的 SOC 2 Type II 审计正在进行中，完成后报告可在 NDA 下提供给客户。企业合同可使用 Zero Data Retention，因此请求载荷不会被持久化；self-hosted 档位会把你的每一字节数据都留在自己的环境内。我们也支持符合 HIPAA 要求的配置，并可为符合条件的医疗健康工作负载签署 BAA；独立渗透测试也是我们持续合规计划的一部分。

你们是否为自定义部署提供工程支持？

当然。企业客户可以直接联系我们的工程团队，而不是进入工单队列，并可使用最适合你团队工作方式的沟通渠道。我们会定期为单个客户交付面向其集成的功能和协议扩展，也会与你们一起端到端落地 self-hosted 部署，从首次设置直到 go-live。

你们支持 SSO 和 RBAC 吗？

支持，并且从一开始就提供细粒度控制。基于角色的访问控制允许你在团队级别分配 owner、admin 和 member 角色，并在 workspace 级别分配 manager、contributor 和 viewer 角色，确保每个人只拥有应有的访问权限。单点登录目前支持 Google 和 GitHub OAuth。

我们可以用自己的数据微调模型，或使用自己的声音吗？

两者都可以，并且由你掌控。你可以通过 API 或 Web UI，使用短至 10 秒的参考音频立即创建私有声音克隆，30 秒或更长音频效果最佳；这些声音会完全私有地保留在你的团队内。对于更深入的合作，我们也会使用你自己的数据微调定制模型。

如果从其他语音供应商迁移怎么办？

迁移到 Fish Audio 很直接，而且大多数团队都会惊讶于速度有多快。你的现有声音可以通过参考音频重新创建，我们的 Python、TypeScript 和 Go SDK 以及 WebSocket 流式 API 覆盖你已经依赖的集成模式，我们的工程团队会与你一起执行切换，确保生产不中断。

面向企业的语音基础设施

受到生产环境语音团队的信赖

语音团队选择切换的六个理由。

生产成果，不是演示胜利。

六类语音产品，今天已经在生产环境交付。

面向 AI 智能体的语音

角色与陪伴应用。

头像视频

多语言客户支持。

规模化声音克隆。

音频翻译与配音。

接入你已经使用的语音智能体技术栈。

客户电话里真正重要的那些基础事项。

为真实增长方式而构建。

准备好时，我们随时在。

常见问题

六类语音产品，
今天已经在生产环境交付。