2026年6月15日指南

专业声音克隆：为您打造经过验证的录音室级 AI 声音副本

Sabrina Shu, Support & Marketing Specialist

Fish Audio 的专业声音克隆（Professional Voice Clone）能为经过验证的真实声音构建录音室级的 AI 副本。付费方案已包含此功能，无需额外费用。

十秒钟的克隆能让你得到一个听起来和你“大致相似”的声音。对于快速测试来说，这已经足够了。但如果要在观众面前展示——比如有声读物章节、品牌视频或播客片头——这种“大致相似”的缺点就会显现：语调平淡、辅音模糊，而且缺乏那种独属于你的感染力。这种差距正是专业声音克隆存在的意义。

还有一个问题是麦克风背后的人所面临的。配音演员们眼睁睁地看着自己的录音在未经许可、未付酬劳、也无法决定用途的情况下被克隆。将声音交给 AI 平台，感觉与其说是一个机会，不如说是一场冒险。

专业声音克隆 (PVC) 是 Fish Audio 最新的克隆级别，它同时解决了这两个问题。它使用 10 到 180 分钟的音频训练录音室级的克隆，并且只有在声音所有者通过实时录音亲自验证其身份后才会完成训练。创建专业副本不会消耗额外额度；PVC 槽位已包含在 Plus、Pro 和 Max 方案中。

创建专业声音克隆 →

什么是专业声音克隆？

专业声音克隆是通过一组较长且清晰的录音（而非短样本），训练出真实人声的高保真 AI 副本的过程。由于模型学习的数据量更大、数据要求更严苛，专业声音克隆在捕捉原始说话人的语速、语调和质感方面，比即时克隆准确得多。

在 Fish Audio 上，专业声音克隆还具备第二个定义性特征：每个 PVC 都经过验证。克隆过程只有在声音所有者通过实时所有权检查后才能完成，这使得 PVC 不仅仅是一个更好的副本，更是一个合法的副本。

PVC vs. 即时声音克隆 vs. 声音设计

目前在 Fish Audio 上有三种获取声音的途径，分别针对不同的需求：

	即时声音克隆	专业声音克隆 (PVC)	声音设计
输入	最少 10 秒音频，支持几乎所有格式	10–180 分钟清晰音频（仅限 MP3/WAV/FLAC）	文本描述
输入质量门槛	较低	严格——带有噪音、长段空白或音效的片段会被拒绝	不适用
验证	—	必须进行实时所有权验证	不适用（仅限原创声音）
训练时间	约 1 分钟	1–2 小时	约 15 秒
最佳用途	快速测试、现有录音	值得署名发布并长期使用的招牌声音	从未存在过的原创角色

想要一个尚未存在的声音？请使用声音设计。需要快速获取副本？即时克隆能在大约一分钟内为你提供一个非常出色的结果。而 PVC 则是为了那个你会签上自己名字的声音而准备的。

质量差异究竟源自何处？

“更出色、更自然”是每个克隆工具都会给出的承诺，所以我们来看看背后的机制。请对比以下两个上传界面：

1. 专业声音克隆

Fish Audio 专业声音克隆上传界面，要求 10 至 180 分钟清晰的 MP3, WAV 或 FLAC 音频

2. 即时声音克隆

Fish Audio 即时声音克隆上传界面，接受几乎任何格式的 10 秒音频

即时克隆接受几乎任何格式的十秒音频，包括视频文件。而 PVC 的分析器要求至少 10 分钟——理想情况下是 12–15 个片段，每个片段 45–60 秒，且语调一致——它会检查每一个文件。长段空白、背景噪音、音效：只要出现其中任何一种，该片段就会被退回要求重新录制。

这种严苛正是产品力的体现。一个经过一小时清晰、一致语音训练的模型，仅仅是因为它听过更多关于你的信息：更多的句式结构、更丰富的情感范围，以及更多让声音具有辨识度的小习惯——而且没有教给它错误信息的干扰数据。1–2 小时的训练运行则完成了剩下的工作。

学习引擎也同样重要。Fish Audio 的声音模型在与所有主要 TTS 供应商的盲测中综合排名第一——这就是为什么即使是我们的即时克隆也是你在任何地方能听到的最佳效果之一。专业声音克隆就是同一个引擎，在终于得到了它所渴望的所有素材后的表现。

如何在 Fish Audio 上创建专业声音克隆

打开创建声音页面并选择 专业声音克隆 (Professional Voice Clone)。您方案的槽位计数会直接显示在卡片上。

Fish Audio 创建声音页面，显示专业声音克隆方法、槽位计数和草稿区域

第一步：上传您的录音

收集您的音频：MP3、WAV 或 FLAC，每个片段控制在 1 分钟以内。最佳实践是 12–15 个 45–60 秒的片段，保持语调一致——同样的麦克风、同样的房间、同样的精气神。您总共需要至少 10 分钟的音频，最多可提供 180 分钟。

在安静的地方录音，不要为了凑时长而随便上传素材：分析器会检查每个文件，带有背景噪音、长段空白或音效的片段将无法通过。清晰且一致的效果远胜于冗长且嘈杂的效果。

第二步：验证声音所有权

Fish Audio 验证声音所有权对话框，要求说话人朗读文本以进行声纹匹配

在训练开始前，声音所有者需要实时大声朗读屏幕上的一段短文。系统会将朗读的声纹与您的训练文件进行比对；如果匹配，即可通过验证。

需要注意的一点：朗读必须由声音所有者本人完成。如果您是与获得授权的配音演员合作的工作室或团队，这意味着配音演员需要亲自完成这一步——无论是在您的录音棚还是远程完成。没有任何绕过麦克风的方法，这是有意为之：这确保了每一个完成的 PVC 都是经过授权的。

第三步：分析，然后训练

点击 开始分析 (Start analyze)，系统会逐一检查您上传的每个文件。每个片段都会被贴上标签——通过，或被拒绝并注明具体原因（如“背景噪音”、“音效”等）——这样您就知道具体需要重录或替换哪些部分。只有当您的全套素材都通过检查后，训练才会开始。

Fish Audio 专业声音克隆音频分析结果，显示通过和拒绝的片段以及质量问题原因

随后，模型将训练 1–2 小时，您可以放心关闭标签页：进行中的 PVC 会作为草稿保存在“创建声音”页面上，再次打开“专业声音克隆”将直接带您回到进度。训练完成后，您的验证声音即可用于文本转语音。

设置您的首个 PVC → —— 已包含在您的方案中，无需额外额度。

声音所有权验证详解

大多数克隆工具通过勾选框来处理授权。您勾选“我有权使用此音频”，平台就相信您的话。

声音所有权验证用证据取代了勾选框。这是一种实时的声纹匹配：说话人朗读一段随机内容，系统将这段新鲜的录音与上传的训练音频进行对比。别人的录音或从网上下载的片段无法匹配——这种检查旨在确保只有实际说话人实时参与才能通过。

这种保护是双向的。如果您是创作者，验证意味着您构建声音的基础是您证明拥有克隆权的声音——随着监管机构（如美国联邦贸易委员会 FTC 针对恶意声音克隆发起的行动）的要求日益严格，这一点变得愈发重要。如果您是声音所有者，这意味着更强的保障：在 Fish Audio 上，除非您站在麦克风前并亲自批准，否则您的声音专业副本就不可能存在。

方案、槽位与管理您的声音克隆

每个方案包含多少个 PVC 槽位？

PVC 容量包含在您的订阅方案中——创建副本没有按个计费的费用，也不消耗额度：

方案	PVC 槽位
免费版	—
Plus 版	1
Pro 版	5
Max 版	15

在您开始之前有一点值得了解：一旦开始，槽位即被占用。 未完成的 PVC 会留在您的草稿区——可以编辑、恢复、占用槽位——直到您完成它。因此，请从您真正想要构建的声音开始。

为什么完成的克隆目前无法删除？

在 PVC 的早期阶段，完成的克隆无法删除。原因是：我们正朝着面向声音所有者的商业发布和收入分成功能迈进，这些系统需要稳定、经过验证的声音记录来保护所有参与者——包括您。随着 PVC 功能的成熟，我们将提供更完整的管理选项。

授权您的声音并变现：我们的愿景

在任何配音社区待上五分钟，你都会听到同样的建议：不要把你的声音卖给 AI。考虑到这个行业迄今为止对待声音所有者的态度，很难说这个建议是错的。声音被抓取、克隆和重复使用，而真实的人完全被排除在环路之外——全球的配音演员正在组织起来进行反击。

我们认为，解决方案不是让声音与 AI 隔绝，而是重建环路，让声音所有者身处其中。验证是基础：一个被证明需要你参与才能创建的克隆，才是可以承载真实条款的克隆。在这个基础上，我们正在构建一个未来，让您可以根据自己的条款授权您的声音——如果您愿意，可以商业化发布您的 PVC，当他人使用时，收入分成会回流给您，并且有明确的授权记录。

这一切都不能仅仅靠勾选框承诺来实现。它需要作为基础设施存在，而 PVC——经过验证、所有者批准、且有意保持永久性——就是它的第一块基石。如果您靠声音谋生，或者希望如此，这就是我们为您构建的系统。它始于您今天可以采取的一步：现在就创建您的验证 PVC，这样当商业发布和收入分成到来时，您的声音已经在系统中——并记录为您所有。

值得构建的声音资产

快速克隆易于制作，也易于被遗忘。专业声音克隆是一种不同类型的资产，现在您已经知道原因了：它使用数分钟到数小时的音频而非数秒进行训练；它有着严格的质量门槛，拒绝任何不清晰的素材；没有所有者的实时许可，它无法存在；它是正在构建的授权和收入分成系统的基石。

所以，无论您是在麦克风的哪一端，都可以从这里开始。如果您是创作者，收集十分钟最清晰的录音并占用一个槽位，分析器会指导您完成后续步骤。如果您是专业配音人士，请将此视为一份早期的邀请：今天拥有一个验证过的 PVC，就是您在商业发布到来时在席位上的一席之地。

创建您的专业声音克隆 → —— 已包含在 Plus、Pro 和 Max 方案中。

常见问题解答

什么是专业声音克隆？

专业声音克隆是通过一组较长的清晰录音（在 Fish Audio 上为 10 到 180 分钟音频）训练出真实人声的高保真 AI 副本，而非使用短样本。其结果在捕捉说话人的语速、语调和质感方面比即时克隆要准确得多。

即时声音克隆和专业声音克隆有什么区别？

即时克隆仅需 10 秒音频，约一分钟即可完成，旨在追求速度。专业声音克隆需要至少 10 分钟经过严格质量检查的音频，训练时间为 1-2 小时，且包含强制性的所有权验证。更多的数据、更严格的输入和更长的训练产生了明显更自然的克隆效果。

我需要付费方案才能创建专业声音克隆吗？

是的。PVC 槽位随付费订阅提供——Plus 版包含 1 个，Pro 版 5 个，Max 版 15 个。创建克隆不会消耗方案之外的额外额度。

我可以用 PVC 克隆别人的声音吗？

只有在他们直接参与的情况下才可以。所有权验证步骤要求声音所有者实时大声朗读一段文字，且声纹必须与训练音频匹配。如果您获得了配音演员的许可，他们需要亲自完成验证步骤。

我可以删除专业声音克隆吗？

目前还不可以。由于我们正在构建依赖于稳定、经过验证的声音记录的商业发布和收入分成系统，已完成的 PVC 目前是永久性的。已开始的草稿会占用槽位直到完成（不过您可以自由编辑和修改草稿）。随着功能的成熟，我们计划提供更多管理选项。

专业声音克隆需要多长时间？

预计全程需要几个小时：收集或录制 10 分钟以上的清晰音频、进行简短的实时验证朗读，以及 1-2 小时的训练运行。您的进度会保存为草稿，因此无需一次性完成所有操作。

Sabrina Shu

Sabrina is part of Fish Audio's support and marketing team, helping users get the most out of AI voice products while turning launches, updates, and customer insights into clear, practical content.

阅读Sabrina Shu的更多内容