2026年6月13日指南

AI 声音设计：仅凭一段文字描述即可创建自定义声音

Sabrina Shu, Support & Marketing Specialist

用简单的语言描述一段声音，Fish Audio 的 Voice Design 只需约 15 秒即可生成。创建自定义 AI 角色声音——发布期间免费。

你需要一个尚不存在的声音。也许是游戏中一个充满讽刺意味的机器人搭档，或者是纪录片中一位温暖的旁白，亦或是播客开头的一位深夜电台主持人。浏览声音库只能让你得到成百上千个大家都在用的声音，而声音克隆则需要真人先录制样本。

Voice Design 以不同的方式解决了这个问题。现在 Fish Audio 已上线该功能，它允许你通过纯文本描述——年龄、性别、口音、音调、语速、情绪——来创建一个完全原创的自定义 AI 声音，并在约 15 秒内将该描述转化为可用的声音模型。无需录音，无需配音演员，也无需在声音库中苦苦搜寻。

在发布期间，使用 Voice Design 生成声音是完全免费的（通常每次生成需 2,000 积分）。

立即体验 Voice Design →

什么是 AI 声音设计？

AI 声音设计是根据书面描述而非音频样本创建自定义、原创合成声音的过程。你输入一段描述声音听起来如何的提示词（Prompt）——例如，“一位温暖、略带沙哑的中年旁白，带有柔和的美国口音”——AI 就会生成一个匹配该描述的全新声音，可直接用于文本转语音。

这使得声音设计与声音克隆有着本质的区别，后者是通过录音复制现有人物的声音。通过声音设计，你创建的声音在世界上是绝无仅有的——没有其他任何人在任何地方使用它。

如何通过 Voice Design 创建你自己的 AI 声音（分步指南）

想知道如何仅凭一段描述就制作出 AI 声音吗？这是从头到尾的完整工作流程。前往创建声音页面并选择 Voice Design。

Fish Audio 创建声音页面，显示即时声音克隆、声音设计和专业声音克隆选项

第一步：描述你想要的声音

Fish Audio Voice Design 界面 —— 用纯文本描述你想要的 AI 声音

在描述框中，写下你想象中的声音。越具体越好。涵盖以下维度：

年龄与性别 —— “一位 30 多岁的女性”
口音 —— “柔和的美国口音”，“轻微的英国腔”
音调与质感 —— “沙哑”，“明亮”，“略带粗糙感”
语速 —— “从容不迫”，“快节奏且充满活力”
情绪与背景 —— “就像在安静的房间里对着唯一的一位听众说话”

不知道从哪里开始？可以使用内置的入门提示词，如温暖的深夜电台主持人、纪录片旁白或儿童故事讲述者，然后在此基础上进行修改。

你还可以添加可选的预览文本（你的样本将朗读的文案），或者留空让系统为你编写一段符合语境的样本。准备好后，点击生成样本。生成通常消耗 2,000 积分，但在发布期间是免费的。

第二步：比较生成的两个声音样本并选择一个

在 Fish Audio Voice Design 中从两个生成的 AI 声音样本中进行选择

Voice Design 会根据你的提示词生成两个不同的声音样本。播放两者进行对比，然后选择合适的一个。不太满意？调整你的描述并点击重新生成样本——在发布期间，反复迭代不消耗任何积分，因此你可以不断精炼，直到它听起来完全符合你脑海中的声音。

第三步：将其保存为你自己的声音模型

在 Fish Audio 中保存带有声音详细信息的自定义 AI 声音模型

点击“继续”，将选定的样本转化为可重复使用的声音模型：

名称和封面 —— 为你的声音赋予身份
标签 —— 性别、年龄、声音风格（温暖、平滑、深沉、带气声...）
应用场景 —— 对话、旁白、角色配音、社交媒体、教育、广告或娱乐

在 Fish Audio 中将 AI 声音可见性设置为公开、未列出或私有

然后选择谁可以使用它：

公开 —— 列在探索页面上，供所有人查找和使用
未列出 —— 在探索中隐藏，可通过直接链接分享
私有 —— 仅你自己可见

确认该声音不冒充任何真实、可识别的个人，点击创建声音，大功告成。你的自定义 AI 声音现在已保存在你的库中，可随时用于任何文本转语音项目——配合 S2 的词级内联标签，你可以精确指导它如何演绎每一行文字。

从入门提示词开始 → —— 发布期间免费生成。

如何编写更好的 Voice Design 提示词

声音的质量取决于描述的质量。以下是平庸结果与完美结果的区别。

以这个入门提示词为例：

“一位温暖、亲切的深夜电台主持人，30 多岁，声音柔和沙哑。语速从容不迫，偶尔带着温柔的笑声，就像在安静的房间里对着唯一的一位听众说话。”

注意它的作用：

锚定一个人格设定（“深夜电台主持人”）——这是模型可以立即进行特征化的角色，比列出十个形容词更有力。
堆叠具体的发声特质（“柔和、沙哑”）——具体的质感词汇优于“好听”或“不错”等模糊词汇。
指定表达方式（“语速从容不迫，偶尔带着温柔的笑声”）——语速和怪癖能让声音栩栩如生。
设定场景（“在安静的房间里对着唯一的一位听众说话”）——背景比任何单一形容词都能更好地塑造亲密度和能量感。

弱提示词：“一个女声，好听且清晰。”

强提示词：“一位 20 多岁的活泼导游，带有明亮的澳大利亚口音，语速快且俏皮，听起来总是带着笑意。”

一个人格设定，三到四个感官细节，一个场景。这就是公式。

为原创角色打造的角色声音生成器

如果你正在为游戏、动画、有声读物、广播剧或虚拟伴侣创建角色，Voice Design 作为角色声音生成器具有一个决定性优势：每个声音都是原创的。

声音库中的声音被成千上万的用户共享；你的反派角色不应该听起来像别人的冥想应用。为虚构角色克隆真人的声音会涉及知情同意和授权问题。而设计的声音则避开了这两者——为你的角色量身定制声音，背后没有真人的肖像权问题。

一些提示词方向可以激发灵感——从写实到纯粹的奇幻：

“一只古老、声音沙哑的巨龙，语速缓慢、声音沉闷，带有戏剧性的威胁感”
“一个多动的青少年男性发明家，说话飞快，兴奋时声音会微微发颤”
“一位宁静的老年图书馆员，语调轻如耳语，有刻意的停顿”
“一位 50 多岁的冷硬派侦探，低沉沙哑的单调嗓音，饱经风霜，表达干练”
“一位活泼的烹饪节目主持人，带有浓重的意大利口音，大声且富有表现力，总是像在笑”
“一个有故障的飞船 AI：平淡、精确、冷静得有些诡异，带有短促的机器人韵律”

生成，对比两个样本，优化，保存——一个下午就能完成全原创配音阵容。然后使用多角色文本转语音将他们放入同一个场景，或者浏览其他用户构建的 AI 角色声音以获取灵感。

Voice Design 与声音克隆：你应该选择哪一个？

Fish Audio 现在提供三种创建声音的方法，它们适用于不同的任务：

	Voice Design	即时声音克隆	专业声音克隆
输入	文字描述	约 10 秒音频	录音室质量录音
耗时	约 15 秒	约 1 分钟	1–2 小时
最适用于	原创角色和全新声音	快速复制现有录音	经过验证的、录音室级别的真人克隆
声音已存在？	否 —— 从零开始创建	是	是 —— 需所有权验证

经验法则：如果声音尚不存在，请设计它；如果已经存在，请克隆它。

天生原创

设计出的声音还有一个值得一提的潜在优势：它们不借鉴任何人。每一个 Voice Design 的输出都是根据描述生成的，而不是根据真人的录音——而且在 Fish Audio 上创建的每一个声音都必须通过确认，证明其不冒充任何真实、可识别的个人。这是一个旨在让你的项目避开知情同意和肖像权争议的工作流程。

当你确实需要属于真人的声音时——无论是你自己的，还是配音演员的——我们认为答案不是模糊这条界线，而是让所有权变得明确。世界各地的配音演员都在推动这一点：在 AI 时代，对他们声音的使用应获得知情同意和公平补偿。这就是我们推出新的 专业声音克隆 背后的理念：基于实时所有权验证，为真人声音创建经过验证的、录音室质量的克隆，并为声音所有者提供可选的商业发布和收入分成。这是声音所有者与希望使用其声音的人之间建立更清晰协议的开始 —— 我们即将在后续的深度解析中探讨更多细节。

在 15 秒内设计你的第一个声音

寻找合适的声音曾意味着试镜演员、翻找声音库或退而求其次。现在，它只意味着写下一句出色的话。

免费设计你的第一个声音 → ——发布期间免费。

常见问题解答

什么是 AI 声音设计？

AI 声音设计是根据文字描述而非音频录音来创建原创合成声音的过程。你描述年龄、口音、音调和语速等属性，AI 就会生成一个匹配该描述的新声音，可用于文本转语音内容。

Voice Design 是免费的吗？

是的 —— 在发布期间，使用 Fish Audio 的 Voice Design 生成声音是完全免费的。标准定价为每次生成 2,000 积分。包含创建和保存声音模型。

声音设计和声音克隆有什么区别？

声音克隆是根据音频样本复制现有人物的声音。声音设计则是仅凭书面描述创建一个从未存在过的声音。克隆用于复制真实声音；设计用于发明原创声音。

我可以将设计的声音用于商业用途吗？

设计的声音是基于原创描述而非任何真人的录音，这使得它们成为内容创作项目的清爽选择。每个声音都必须通过确认，证明其不冒充任何真实、可识别的个人，且使用必须符合 Fish Audio 的使用政策。

如何编写一个好的声音设计提示词？

将声音锚定在一个角色身份中（例如“纪录片旁白”），添加三到四个具体的发声特质（沙哑、明亮、粗糙），指定语速，并描述说话背景。具体的感官描述总是优于模糊的形容词。

Sabrina Shu

Sabrina is part of Fish Audio's support and marketing team, helping users get the most out of AI voice products while turning launches, updates, and customer insights into clear, practical content.

阅读Sabrina Shu的更多内容