Google Docs 语音转文字完整教程：如何使用语音输入和语音转文本

2026年2月28日

你用手机录制了一段 45 分钟的客户采访。回到办公桌前，你打开 Google Docs，搜索“转录”，却一无所获。你尝试使用 Google Docs 语音输入，把手机对着笔记本电脑麦克风并点击播放。Google 勉强正确转录了大约 40% 的单词，然后在音频质量下降时彻底放弃了。

这是大多数人通过惨痛教训发现的差距。Google Docs 内置的语音转文字工具在实时听写（即在安静房间里直接对着麦克风说话）时表现良好。但一旦你需要转录录音、处理多个发言人或在嘈杂环境中听写，Google Docs 语音输入就会遇到瓶颈。普通人的打字速度为每分钟 40 个单词，而听写可以达到 150 WPM。这种 3.7 倍的速度差异是真实存在的，但前提是语音转文本工具确实能捕捉到你所说的话。

Google Docs 语音输入比你想象的更好用（只要设置正确）

大多数人尝试过一次语音输入后，会因为错误而感到沮丧并放弃。在大多数情况下，问题不在于工具，而在于设置。与在咖啡馆使用笔记本电脑内置麦克风相比，在安静的房间里使用一个 15 美元的 USB 麦克风将使你的准确率翻倍。

在开始之前，以下是语音输入的功能概览：

功能	是否支持	备注
实时听写	是	直接对着麦克风说话
转录音频文件	否	仅处理实时麦克风输入
语音输入标点	是	说出“句号”、“逗号”、“新段落”。
多语言支持	是	支持 100 多种语言
发言人识别	否	无法区分不同发言人
离线使用	否	需要互联网连接
移动端支持	是	适用于 Android 和 iOS 的 Google Docs 应用

“转录音频文件”旁边的“否”是让大多数用户寻找替代方案的限制。我们稍后会讨论这个问题。

分步指南：在 Google Docs 中设置语音输入

桌面端（需要 Chrome 浏览器）

语音输入仅在 Google Chrome 中有效。它不会出现在 Firefox、Safari 或 Edge 中。

在 Chrome 中打开一个 Google Docs 文档
前往 工具 > 语音输入（或在 Windows 上按 Ctrl + Shift + S，在 Mac 上按 Cmd + Shift + S）
文档左侧会出现一个麦克风图标
点击麦克风上方的下拉菜单选择你的语言
点击麦克风图标。开始监听时它会变成红色。
以自然的速度清晰地说话
再次点击麦克风停止，或停顿约 30 秒，它将自动停止

移动端（Android 和 iOS）

移动端的体验略有不同，因为它使用的是设备的原生语音识别：

打开 Google Docs 应用
点击以将光标置于要输入文本的位置
点击键盘上的麦克风图标（这是你设备内置的听写功能，而非 Google Docs 专有的语音输入）
自然说话。文本会实时出现。
再次点击麦克风停止

在 Android 上，由于与操作系统的深度集成，Google 的语音转文字识别往往具有更高的准确度。在 iOS 上，你使用的是 Apple 的听写引擎，它对英语处理得很好，但在其他语言的语音转文本准确度上可能落后于 Google。

可为你节省 10 分钟的语音命令

大多数用户没有意识到 Google Docs 语音输入支持通过口述命令进行格式设置和导航。即便只学会其中五个，也能让你无需在说话和打字之间频繁切换。

基本标点命令：

“句号” → .
“逗号” → ,
“问号” → ?
“感叹号” → !
“新行” → 移动到下一行
“新段落” → 插入段落分隔符

格式命令（仅限英语）：

"Bold" / "Unbold"
"Italics" / "Remove italics."
"Underline" / "Remove underline."
"Create a bulleted list."
"Create numbered list."

导航与编辑：

“选择 [单词]” → 突出显示特定单词
“全选” → 选中所有内容
“删除” / “退格” → 删除上一个单词
“转到行尾” → 移动光标
“撤销” → 撤销上一步操作

注意：这些语音命令仅在界面语言设置为英语时有效。如果你使用西班牙语或日语听写，内容可以用这些语言，但格式命令必须用英语发出。对于 Google Docs 语音输入的多语言用户来说，这是一个尴尬的局限。

语音输入的局限性（以及何时更换工具）

语音输入在其设计用途上表现出色：在安静环境下进行初稿听写。但它有五个硬伤，是任何设置都无法修复的。

无法转录音频文件。 这是最大的缺憾。你不能上传 MP3，不能拖入 WAV 文件，也不能让 Google Docs 语音输入去听 Zoom 录音。它只处理实时麦克风输入。如果你有录制的采访、讲座或播客片段需要转录，Google Docs 语音转文字根本帮不上忙。

仅支持单发言人。 语音输入没有发言人分离的概念。如果会议中有两人在交谈，转录文本就会变成一整块分不清谁是谁的文字墙。对于访谈、焦点小组或多人会议，这使得原始输出在不经过大量手动编辑的情况下几乎无法使用。

准确率随口音和背景噪音下降。 Google 的语音转文字模型主要针对清晰、标准的口音进行训练。非母语使用者、地区方言以及任何程度的背景噪音都会将准确率降至 80% 以下。在这种错误率下，你纠正转录稿的时间会比通过听写节省的时间还要多。

缺乏后期编辑智能。 语音输入给出的是原始文本。除了句首之外，它不会自动将专有名词大写，没有数字或日期的智能格式化，也没有上下文纠错。英语中的 “To”、“too” 和 “two” 每次都是随机碰运气。

仅限实时。 如果你的网络在中途断开，语音输入就会停止。没有本地备份，没有缓冲，无法恢复。这种对连接的依赖使其在 Wi-Fi 不稳定的地区进行长时间听写时变得不可靠。

通过 Google Docs 转录音频文件的绕道方法

虽然有一个技术上可行的“黑客”方法，但它的操作感正如听起来一样笨拙。

打开电脑的声音设置
将系统音频输出设置为回环麦克风输入（在 Windows 上使用“立体声混音”；在 Mac 上，你需要 Soundflower 或 BlackHole 等第三方应用）
打开 Google Docs 并启动语音输入
播放你的音频文件。系统会通过虚拟麦克风传输音频，Google Docs 语音输入会实时进行转录。

在实践中，这种方法存在三个问题：

由于音频经过了额外的处理层，准确率会显著下降
你必须实时播放整个文件。60 分钟的录音需要 60 分钟来转录。
任何系统通知声音或后台应用音频都会被转录成乱码

对于简短、清晰的音频剪辑，这可以应急。对于任何超过 5 分钟或音频质量不佳的内容，这都不是真正的解决方案。

当 Google Docs 不够用时：使用 Fish Audio 进行专业语音转文本

如果你的工作流程涉及语音输入无法处理的任何场景，专业的语音转文本工具可以完全弥补这一差距。Fish Audio 的语音转文本专为这些用例设计：上传音频、多语言支持、嘈杂录音以及生产级质量的转录。

它能处理哪些语音输入无法处理的情况

音频文件上传：直接拖入 MP3、WAV、M4A 或其他常见格式。不需要实时播放技巧。上传文件，即可获取转录稿。
对各种口音的高准确度：Fish Audio 的模型针对多种语音模式进行了训练，而不仅仅是标准播音级英语。地区口音、非母语使用者以及带有语气词（如“嗯”、“啊”）的日常对话都能得到更优雅的处理。
多语言转录： 支持英语、普通话、粤语、日语和韩语。
噪音耐受度：背景噪音、房间回声、电话质量录音。该模型旨在处理现实世界的音频，而不仅仅是录音室条件。

工作流程：几分钟内将录制音频转换为 Google Docs 文档

访问 fish.audio/speech-to-text
上传你的音频文件（采访、讲座、会议录音、语音备忘录）
选择语言（或让工具自动检测）
点击转录并等待。 支持长达 60 分钟的文件。处理时间因文件长度和服务器负载而异，但不需要实时播放。
复制转录稿并将其粘贴到你的 Google Docs 中

就是这样。转录稿整洁、格式化良好且随时可以编辑。没有虚拟音频路由，没有实时播放，也不用祈祷 Wi-Fi 不掉线。

在实际内容创作流中的应用

对于在 Google Docs 中创作的作家和创作者来说，最实用的配置是：

实时听写（初稿、头脑风暴、自由书写）：使用 Google Docs 语音输入。它免费、内置，足以应对安静房间内的个人听写。
音频转录（采访、会议、讲座、播客）：使用 Fish Audio STT。上传文件，获取转录稿，然后粘贴到 Google Docs 中。
音频生产从完成的文本制作音频（将 Google Docs 转换为配音）：使用 Fish Audio TTS，拥有 2,000,000+ 种声音、15 秒快速声音克隆和 8 种语言支持。

这种组合涵盖了完整的闭环：语音转文本（用于捕捉创意）和文本转语音（用于制作音频内容）。Google Docs 作为你的写作工作台居于核心地位，而 Fish Audio 则负责音频转换的两个方向。

5 个能让 Google Docs 准确率翻倍的听写习惯

无论你是使用内置语音输入还是专业工具，你的说话方式与工具的选择同样重要：

说完整的句子，而不是碎片。 语音识别模型利用上下文来预测单词。“安排会议周二下午三点”不如“让我们把会议安排在周二下午三点”清晰，因为后者提供了更多的上下文供模型参考。
大声说出标点符号。 在说话时说出“句号”、“逗号”和“新段落”。前 10 分钟会觉得尴尬，之后就会变得自然，而且你的原始转录稿会干净 80%。
在思路之间停顿，不要拖尾音。 一个清晰的 1 秒钟停顿能给模型一个明确的句子边界。拖着“嗯，那个，所以……”的尾音会产生垃圾文本，清理它们的时间比重新听写还要长。
使用 USB 麦克风，不要用笔记本内置麦克风。 一个 15-25 美元的 USB 电容麦克风，放在距离嘴巴 6-8 英寸的地方，表现会优于价值 2,000 美元的笔记本电脑内置阵列麦克风。准确率差异通常在 10-15 个百分点。
单次会话仅使用一种语言。 如果你在句子中途在英语和中文之间切换，两种语言的准确率都会下降。完成一个语言块，停止语音输入，切换语言设置，然后继续。

结论

Google Docs 语音输入是一个功能尚可的免费实时听写工具。正确设置它，学会五个语音命令，使用像样的麦克风，它就能以你打字速度 3-4 倍的速度捕捉初稿。这对于思考速度快于打字速度的独立写作者来说非常实用。

但 Google Docs 的本质是文本编辑器，而非音频处理平台。当你需要转录录音、处理多位发言人或在复杂条件下处理音频时，Google Docs 语音转文字就显得力不从心了。最清晰的升级路径是保留 Google Docs 作为你的写作空间，并使用 Fish Audio 处理所有音频需求：输入端使用转录，输出端使用语音生成。从免费版开始，在你最难处理的录音上测试一下吧。

常见问题解答

Google Docs 的原生功能不支持直接上传音频文件（如 MP3 或 WAV）进行转录。它主要设计用于通过麦克风进行的实时听写。对于文件转录，建议使用 Fish Audio 等专业工具。

语音输入功能目前仅在 Google Chrome 浏览器中提供。如果你使用的是 Firefox、Safari 或 Edge，该选项将不会出现。

创造真实感的声音

立即开始生成最高质量的音频。

免费注册

已有账号？登录

分享这篇文章

Kyle Cui

Kyle is a Founding Engineer at Fish Audio and UC Berkeley Computer Scientist and Physicist. He builds scalable voice systems and grew Fish into the #1 global AI text-to-speech platform. Outside of startups, he has climbed 1345 trees so far around the Bay Area. Find his irresistibly clouty thoughts on X at @kile_sway.

阅读Kyle Cui的更多内容 >