2026年1月22日指南

如何在 TikTok 上使用文字转语音：创作者全方位教程

TikTok 上的文字转语音（TTS）功能可以将你编写的字幕转换为语音音频，让 AI 语音来为你的内容配音，而无需你亲自录制任何文字。这项功能已成为该平台的标志性元素——也就是你在无数视频中听到的那个熟悉的、用于阅读字幕、讲笑话或解释教程的“TikTok 语音”。

无论你是想在不露声的情况下添加配音，还是想让你的内容对视障观众更具可访问性，或者是仅仅想尝试这种已被证明有效的视频风格，只要你知道在哪里可以找到它，TikTok 的 TTS 功能就非常易于使用。本指南涵盖了基本流程、语音选择、常见故障排除建议，以及当 TikTok 内置语音无法完全满足你需求时的高级替代方案。

什么是 TikTok 文字转语音？

TikTok 的文字转语音功能可将你添加到视频中的任何文本叠加层转换为语音音频。AI 生成的语音会大声朗读你的字幕，并与你的视频内容保持同步。观众在屏幕上看到文字的同时也能听到朗读声，这对于教程、讲故事、评论和无障碍性特别有用。

该功能于 2020 年底推出，并持续走红。不列颠哥伦比亚大学（UBC）赛德商学院的研究发现，使用 AI 语音的创作者制作的视频数量比不使用的创作者多出 24%，这表明该功能显著降低了内容创作的门槛。

TikTok 提供涵盖不同语言、口音和角色风格的多种语音选项——从流行的“Jessie”语音（通常被称为“TikTok 语音”或“Siri 语音”）到 Ghostface 和迪士尼主题角色等新奇选项。

第 1 步：录制或上传你的视频

首先，创建将配合 TTS 旁白的视频内容。

打开 TikTok，点击屏幕底部中心的 “+” 按钮。
拍摄新片段或点击上传，从相册中选择现有视频。
如果你使用多个片段，请完成初步的修剪或排列。

你的视频不需要包含录制的音频——TTS 在静音素材、背景音乐甚至你想补充旁白的现有音频上都能完美运行。

第 2 步：为视频添加文字

TTS 将文字叠加层转换为语音，因此你需要先添加文字。

录制或上传后，点击右侧编辑菜单中的文字按钮。
输入你想要 AI 语音朗读的话。
点击完成将文字放置在视频上。

文字提示：

● 为了更好的节奏，保持单个文本框在 1-2 个句子以内。

● 仔细检查拼写——AI 会完全按照你输入的文字朗读，包括错别字。

● 标点符号会影响停顿和语气：句号产生长停顿，逗号产生短暂停顿，问号会调整语调。

● 对于较长的旁白，创建多个文本框并对每一个应用 TTS。

你可以调整文字的位置、字体、颜色和大小。这些视觉设置不会影响 TTS 音频，但会影响观众在收听时的阅读体验。

第 3 步：应用文字转语音

这是见证奇迹的时刻。

点击你刚刚创建的文本框。
从弹出的菜单中选择 文字转语音。
浏览可用的语音选项。
选择符合你内容基调的语音。
点击完成应用。

现在播放视频时，AI 语音将大声朗读你的文字。预览效果以确保时机和语音选择适合你的内容。

将 TTS 应用于多个文本框：

如果你创建了多个文字叠加层，可以将相同的语音应用于所有文本框：

选择语音后，寻找 “将语音应用于此视频中的所有文字” 选项。
点击它以在所有文本框中使用相同的 TTS 语音。

这可以节省时间并确保整个视频中旁白的一致性。

第 4 步：选择合适的语音

TikTok 提供各种语音类别，但可用性可能因地区和应用版本而异：

标准语音：

● Jessie —— 原始的“TikTok 语音”，女性，清晰且略带欢快

● Joey —— 男声，常用于幽默和叙事

● Eddie —— 具有独特语调的男声

● Rocket —— 更具机器人感、声音独特

● Alex, Chris, Taylor, Kendall —— 其他语音个性

角色语音：

● Ghostface —— 来自《惊声尖叫》的反派语音

● Stitch —— 来自《星际宝贝》

● C-3PO, Stormtrooper —— 《星球大战》角色

● Chewbacca —— 独特的低吼式语音

季节性及特殊语音：

● 圣诞老人、万圣节主题语音以及其他轮换选项。

语音选择提示：

● 使语音基调与内容情绪相匹配——Jessie 适用于休闲或欢快的视频，而 Ghostface 适合戏剧性或恐怖的主题。

● 角色语音能吸引注意力，但在教学或教育类内容中可能会让人分心。

● 在最终确定前测试多种语音——预览每一个选项。

● 热门语音辨识度很高，这根据你的目标可能会对参与度产生正面或负面的影响。

第 5 步：设置文字时间（时长）

控制 TTS 文字出现和消失的时间：

点击视频上的文本框。
选择 设置时长（或拖动屏幕底部的文字时间轴）。
调整起点和终点以匹配你的视频时机。

当文字出现在屏幕上时，TTS 音频就会播放。对于多个文本框，错开它们的时间以创建流畅的叙述流。

时间设置最佳实践：

● 给观众足够的时间阅读（即使有音频，很多人也会同时阅读）。

● 使文字出现的时间与相关的视觉画面相匹配。

● 在文本框之间留出短暂的空隙，以创造自然的节奏。

第 6 步：调整音量级别

平衡 TTS 音量与背景音乐或其他音频：

点击编辑屏幕顶部的 添加声音。
如果你使用了背景音乐，点击音量。
调低原声或背景音乐，确保 TTS 清晰可闻。
在最终发布前预览音频平衡。

为了清晰起见，TTS 通常需要比背景音乐响亮。一个通用的准则是将 TTS 设置为 100%，背景音乐设置为 20-40%。

第 7 步：发布视频

一切听起来都很完美后：

点击 下一步 进入发布页面。
添加你的标题、标签和任何其他设置。
点击发布进行发布。

你的视频现在将带有 AI 生成的配音进行播放，所有观众都可见且可听。

常见 TTS 问题故障排除

未显示“文字转语音”选项：

● 将你的 TikTok 应用更新到最新版本。

● 该功能可能在你所在的地区暂时不可用。

● 尝试关闭并重新打开应用。

语音选项有限或缺失：

● 某些语音是地区特定的，或定期轮换。

● 角色语音可能受到许可限制。

● 检查应用更新——新语音会定期添加。

TTS 音频听起来不正确：

● 检查标点符号——缺少句号会导致语气连读。

● 缩写词可能会被按字面意思朗读（如 "Dr." 与 "Doctor"）。

● 数字和特殊字符可能会导致意想不到的发音。

音量太低：

● 调低背景音乐音量。

● 确保预览期间你的设备音量已开启。

● 某些语音天生比其他语音更安静。

在 TikTok 中使用外部 TTS 工具

TikTok 的内置语音对于快速创作内容效果很好，但它们也有局限性。这些语音具有明显的“TikTok”特征，自定义选项极少，且可用性会有所波动。想要更多配音控制权的创作者通常会选择在外部生成音频并导入到 TikTok。

外部 TTS 工作流：

使用第三方 TTS 生成器创建你的音频文件。
下载 MP3 或 WAV 文件。
将音频导入视频编辑器（如 CapCut、InShot 或类似应用）。
将配音与你的视频内容对齐。
导出最终视频并上传到 TikTok。

这种方法虽然耗时较多，但具有显著优势，包括更自然的语音、不依赖 TikTok 轮换选项的持续可用性，以及高级自定义功能。

何时适合使用外部 TTS：

对于需要更具表现力、更自然的语音，或者制作多语言内容的创作者来说，外部 TTS 工具通常能提供 TikTok 内置选项无法比拟的质量。Fish Audio 在 TikTok 内容创作中表现尤为出色，因为其语音听起来明显更像真人而非机器人，且其情感标签系统允许创作者在无需复杂配置的情况下调整语气。

Fish Audio S1 模型通过在文本中插入简单的标签——如 (excited)、(nervous)、(confident)——来生成具有情感控制的自然语音，从而影响每一行文字的表达方式。这对于通过情感变化来吸引观众的叙事性内容特别有用。

该平台支持八种具备完整情感功能的语言：英语、中文、日语、德语、法语、西班牙语、韩语和阿拉伯语。对于制作面向国际观众或双语视频的创作者，这种覆盖范围可以满足大多数常见需求，而无需使用多个工具。

如果你想要一个一致的语音形象，声音克隆是另一个选择。Fish Audio 仅需 10 秒的参考音频即可创建自定义语音，让你无需手动录制每一段配音，就能建立一个具有辨识度的频道身份。

Fish Audio logo

Fish Audio 描述后的内容：

带有 TikTok 风格叙述文本的 Fish Audio TTS 界面建议操作：

访问 fish.audio
输入带有情感标签的 TikTok 叙述文本示例
截取界面截图注释：显示情感标签语法建议大小：1200x700 文件名：fish-audio-tiktok-voice-example.png

其他外部 TTS 选项：

ElevenLabs 提供深受专业创作者欢迎的高表现力语音。Murf AI 为教育和讲解类内容提供强大的自定义选项。Gesserit 和 TikTokVoice 等在线生成器则非常适合基于桌面的编辑工作流。

TikTok TTS 的创意点子

讲故事： 使用 TTS 进行叙述，同时展示相关的视觉画面、辅助素材（B-roll）或文字动画。AI 语音提供了一致的叙述者，而不需要配音技巧。

教程内容： 当你的视频演示过程时，TTS 会引导观众完成步骤。这种方法对于烹饪、手工和 DIY 教程内容特别有效。

反应/评论： 在展示你正在反应的内容时，通过 TTS 添加你的想法。当你不想露脸但仍想传达个性时，这种方法效果很好。

合拍（Duet）和拼接（Stitch）： 在其他创作者的内容中添加 TTS 评论，制作反应类视频。

无障碍性： TTS 让视障或有阅读困难的观众也能获取你的内容。这是扩大潜在受众的一种切实可行的方法。

总结

在 TikTok 上添加文字转语音遵循简单的流程：为视频添加文字，点击文字，选择文字转语音，然后选择一种语音。该功能消除了录音障碍，增加了无障碍性，并利用了观众认可并乐于参与的成熟内容风格。

对于希望获得超越 TikTok 内置选项（更自然、更有表现力或更一致）的创作者来说，像 Fish Audio 这样的外部 TTS 工具提供了显著的升级。虽然工作流程多了一个步骤，但在语音质量和创意控制方面是值得的。

从 TikTok 的原生 TTS 开始学习这种形式，然后随着你的内容对高级音频的需求增加，逐步扩展到使用外部工具。

Kyle Cui

Kyle is a Founding Engineer at Fish Audio and UC Berkeley Computer Scientist and Physicist. He builds scalable voice systems and grew Fish into the #1 global AI text-to-speech platform. Outside of startups, he has climbed 1345 trees so far around the Bay Area. Find his irresistibly clouty thoughts on X at @kile_sway.

阅读Kyle Cui的更多内容