限时优惠- 年付五折立即兑换
2026年6月13日指南

AI 语音设计:仅需一段文本提示词,即可创建定制语音

AI 语音设计:仅需一段文本提示词,即可创建定制语音

只需用平实的语言描述一种声音,Fish Audio 的 Voice Design 就能在约 15 秒内生成。创建定制的 AI 角色语音 —— 发布期间免费使用。

你需要一种尚未存在的声音。也许是游戏中爱挖苦人的机器人伙伴,纪录片中温暖的旁白,或者是播客开场中深夜电台主持人的声音。浏览语音库只能找到大家都在用的那几百个声音,而语音克隆则需要真人先录制样本。

Voice Design 以不同的方式解决了这个问题。现在它已在 Fish Audio 上线,让你可以通过纯文本描述——年龄、性别、口音、音调、语速、情绪——来创建一个完全原创的定制 AI 语音,并在约 15 秒内将其转化为可用的语音模型。无需录音,无需配音演员,也无需在语音库中苦苦搜寻。

在发布期间,使用 Voice Design 生成语音是完全免费的(通常每次生成需 2,000 积分)。

立即体验 Voice Design →


什么是 AI 语音设计?

AI 语音设计是根据书面描述而非音频样本创建定制、原创合成语音的过程。你输入一段描述声音听起来如何的提示词——例如,“一位温暖、声音略显沙哑、带有轻微美国口音的中年旁白”——AI 就会生成一个符合该描述的全新语音,可直接用于文本转语音。

这使得语音设计与语音克隆有本质的区别,后者通过录音复制现有人物的声音。通过语音设计,你创建的声音以前从未存在过——任何地方都没有人在使用它。


如何使用 Voice Design 创建你自己的 AI 语音(分步指南)

想知道如何仅凭一段描述就制作出 AI 语音吗?以下是完整的操作流程。前往 创建语音页面 并选择 Voice Design

Fish Audio create voice page showing Instant Voice Clone, Voice Design and Professional Voice Clone options

第 1 步:描述你想要的声音

Fish Audio Voice Design interface — describe the AI voice you want in plain text

在描述框中,写下你想象中的声音。描述得越具体越好。涵盖以下维度:

  • 年龄与性别 —— “一位 30 岁后期的女性”
  • 口音 —— “柔和的美国口音”,“轻微的英国腔调”
  • 音调与质感 —— “沙哑的”,“明亮的”,“略带颗粒感的”
  • 语速 —— “从容不迫的”,“快速且充满活力的”
  • 情绪与情境 —— “就像他们在安静的房间里对一位听众说话一样”

不知道从哪里开始?可以使用内置的起始提示词,例如温暖的深夜电台主持人、纪录片旁白或儿童故事讲述者 —— 然后在此基础上进行修改。

You 还可以添加可选的预览文本(你的样本将朗读的文案),或者留空让系统为你编写一个符合语境的样本。准备好后,点击 生成样本 (Generate Samples)。生成通常消耗 2,000 积分,但在发布期间是免费的。

第 2 步:比较两个生成的语音样本并择一使用

Picking between two generated AI voice samples in Fish Audio Voice Design

Voice Design 会根据你的提示词生成两个不同的语音样本。播放两者,进行比较,然后选择最合适的一个。不完全满意?调整你的描述并点击 重新生成样本 (Re-generate Samples) —— 在发布期间迭代是免费的,所以不断完善直到它听起来完全符合你脑海中的声音。

第 3 步:将其保存为你自己的语音模型

Saving a custom AI voice model with voice details in Fish Audio

点击“继续 (Continue)”,将你选择的样本转化为可重复使用的语音模型:

  • 名称与封面 —— 为你的语音赋予一个身份
  • 标签 —— 性别、年龄、语音风格(温暖、平滑、深沉、气声...)
  • 使用场景 —— 对话、旁白、角色语音、社交媒体、教育、广告或娱乐

Setting AI voice visibility to public, unlisted or private in Fish Audio

然后选择谁可以使用它:

  • 公开 (Public) —— 列在发现页面上,供所有人查找和使用
  • 不公开列出 (Unlisted) —— 在发现页面中隐藏,可通过直接链接分享
  • 私有 (Private) —— 仅你自己可见

确认该语音不冒充任何真实的、可识别的人物,点击 创建语音 (Create Voice),即告完成。你的定制 AI 语音现在保存在你的库中,随时可用于任何文本转语音项目 —— 配合 S2 的词级内联标签,你可以精确指导它如何演绎每一行。

使用起始提示词开始 → —— 发布期间生成免费。


如何编写更好的 Voice Design 提示词

语音的质量取决于描述的质量。以下是平庸结果与完美结果的区别。

看看这段起始提示词:

“一位温暖、亲切的深夜电台主持人,30 岁后期,声音柔和沙哑。语速从容不迫,偶尔带有温柔的笑声,就像他们在安静的房间里对一位听众说话一样。”

看看这段描述的作用:

  1. 锚定人设(“深夜电台主持人”)—— 模型可以立即角色化的身份,比列出十个形容词更有力

  2. 堆叠具体的语音特质(“柔和、沙哑”)—— 质感词汇优于“好听”或“不错”等模糊词汇

  3. 指定表达方式(“从容不迫的语速,偶尔带有温柔的笑声”)—— 语速和特有的习惯让声音变得鲜活

  4. 设定场景(“在安静的房间里对一位听众说话”)—— 语境比任何单一形容词都能更好地塑造亲密度和能量感

弱提示词:“一个女性的声音,悦耳且清晰。

强提示词:“一个 20 多岁的开朗导游,带有响亮的澳大利亚口音,语速轻快俏皮,听起来总是带着微笑。

一个人设,三四个感官细节,一个场景。这就是公式。


为原创角色打造的角色语音生成器

如果你正在创建角色 —— 无论是为了游戏、动画、有声读物、广播剧还是虚拟伴侣 —— Voice Design 作为一个角色语音生成器具有一个决定性的优势:每一个声音都是原创的。

语音库中的声音被成千上万的用户共享;你的反派角色不应该听起来和别人的冥想应用里的声音一样。为虚拟角色克隆真人的声音会涉及到许可和授权问题。而设计的语音避开了这两点 —— 专为你的角色打造的声音,背后没有真人肖像权。

一些提示词方向,从写实到充满幻想:

  • “一条古老、嗓音沙哑的巨龙,语速缓慢、低沉,带有戏剧性的威胁感”
  • “一位多动的男性少年发明家,语速很快,兴奋时声音会微微发颤”
  • “一位宁静的老年图书馆员,语调轻柔如耳语,有刻意的停顿”
  • “一位 50 多岁的硬汉侦探,低沉沙哑的单调语气,饱经沧桑,表达冷淡”
  • “一位活泼的烹饪节目主持人,带有浓重的意大利口音,大声、富有表现力,听起来总是在大笑的边缘”
  • “一个出现故障的飞船 AI:语气平淡、精确、过于冷静,带有断断续续的机器人节奏”

生成、比较两个样本、完善、保存 —— 一个下午就能搞定一整套原创卡司。然后利用 多角色文本转语音 将他们放入同一个场景中,或者浏览 AI 角色语音 看看别人的作品寻找灵感。


Voice Design vs. Voice Cloning:你应该用哪一个?

Fish Audio 现在提供三种创建语音的方式,它们服务于不同的需求:

Voice DesignInstant Voice CloneProfessional Voice Clone
输入方式文本描述约 10 秒音频录音室质量录音
所需时间约 15 秒约 1 分钟1–2 小时
最适用于原创角色与全新语音快速复制现有录音真人经过验证的录音室级别克隆
语音是否已存在?否 —— 从零开始创建是 —— 需所有权验证

经验法则:如果声音尚未存在,使用设计 (Design)。如果已经存在,使用克隆 (Clone)。

天生原创

设计出的语音还有一个值得一提的隐性好处:它们不向任何人借用。每一个 Voice Design 的输出都是根据描述生成的,而不是根据真人的录音 —— 并且在 Fish Audio 上创建的每一个语音都必须通过确认,证明其不冒充真实的、可识别的人物。这是一个旨在让你的项目远离授权和肖像权困扰的工作流。

当且仅当你需要的语音确实属于一个真人时 —— 你自己或配音演员 —— 我们认为答案不是模糊界限,而是让所有权明确化。世界各地的配音演员都在推动这一点:在 AI 时代,针对其声音的使用获得许可和公平报酬。这就是我们推出 Professional Voice Clone 的初衷:一个基于实时所有权验证、为真人声音打造的经过验证的录音室级克隆,并可选择商业发布和收益共享给声音所有者。这是声音所有者与想要使用其声音的人之间建立更清晰契约的开始 —— 更多内容请期待我们即将发布的深度解析。


在 15 秒内设计你的第一个语音

过去,找到合适的声音意味着试镜演员、翻找语音库,或者被迫接受“差不多就行”。现在,只需写好一个句子。

免费设计你的第一个语音 → — 发布期间免费。

Sabrina Shu

Sabrina Shu

Sabrina is part of Fish Audio's support and marketing team, helping users get the most out of AI voice products while turning launches, updates, and customer insights into clear, practical content.

阅读Sabrina Shu的更多内容

创造真实感的声音

立即开始生成最高质量的音频。

已有账号? 登录