2026年3月5日指南

如何在任何设备上开启语音转文字并开始听写

Kyle Cui, AI Systems Engineer

大多数人的打字速度是每分钟 40 个单词，而说话速度通常是 130 个。每次你用大拇指在手机上打字、在电脑上费力地敲击键盘或在会议后手动转录笔记时，都在浪费这 3 倍的速度差。

语音转文字（也称为听写或语音打字）可以将你说的内容实时转换为书面文本。几乎所有主流设备都内置了这一功能。开启它非常简单，但要获得准确的结果，你需要了解一些设置界面没告诉你的技巧。

Windows 10 和 11

Windows 有两个语音转文字工具。“语音打字”是轻量级的听写工具，而“Windows 语音识别”则是较旧但更全面的系统。

开启语音打字

“语音打字”是更快的选择，也是 Microsoft 积极维护的功能。它适用于系统中的任何文本字段。

按 Win + H 打开语音打字工具栏。屏幕顶部会出现一个小麦克风面板
点击麦克风图标或再次按 Win + H 开始听写
自然地说话。Windows 会实时转录并在光标位置插入文本

首次设置注意事项：

麦克风权限：Windows 可能会提示你授予麦克风访问权限。请允许它。否则，语音打字将无法运行
联机语音识别：为了获得更好的准确度，请确保在设置 > 隐私和安全性 > 语音中启用了“联机语音识别”。基于云的模型比离线回退方案准确得多
自动标点：语音打字可以自动插入句号、逗号和问号。可以通过语音打字工具栏上的齿轮图标开启此功能

听写时可以说的语音命令：

“句号”、“逗号”、“问号”、“感叹号”来插入标点符号
“换行”或“新段落”来创建分行
“删除那个”来删除上一个短语
“停止听写”来关闭麦克风

Windows 语音识别

较旧的“语音识别”工具提供更广泛的控制，包括用于导航 Windows、打开应用程序和点击按钮的语音命令。它功能更强大，但也更复杂。

打开设置 > 辅助功能 > 语音 (Windows 11) 或在“开始”菜单中搜索“Windows 语音识别”
按照设置向导进行操作，其中包括麦克风校准步骤和简短的语音训练练习

对于纯粹的听写，“语音打字”是更好的选择。如果你想完全通过语音控制电脑，那么 Windows 语音识别值得一试。

macOS

macOS 提供系统级的“听写”功能，以及用于离线使用的“增强听写”。

开启听写

打开系统设置 > 键盘
滚动到听写部分并将其开启
macOS 会要求你确认并可能会下载语言模型

启用后，按键盘上的麦克风键（在新款 Mac 上）或连按两次 Fn 键（或你配置的任何快捷键），即可在任何文本字段中开始听写。

值得检查的配置：

语言：点击语言下拉菜单以添加其他听写语言。macOS 支持多种语言同时使用，引擎会自动检测你正在说哪种语言
自动标点：开启此功能，让 macOS 根据你的语速和语调插入句号、逗号和问号
快捷键：如果连按 Fn 键感觉不方便，可以在听写设置下自定义激活快捷键

默认情况下，macOS 听写会将音频发送到 Apple 的服务器进行处理。在运行 macOS Ventura 或更高版本的 Apple Silicon Mac 上，支持的语言可以使用设备端处理，从而将音频保留在本地。

语音控制

“语音控制”是 macOS 完整的语音命令系统。它超越了听写的范畴，让你能够使用语音命令进行导航、点击、滚动和编辑。

打开系统设置 > 辅助功能 > 语音控制并开启

“语音控制”完全使用设备端处理且可离线工作。它主要为需要完全免提操作的辅助功能用户设计，但作家和高级用户有时也会因其精确的编辑命令（如“选择上一句”或“将那个大写”）而采用它。

iPhone 和 iPad

iOS 自 2011 年起就内置了听写功能。其准确度已大幅提升，尤其是在配备 Apple 神经网络引擎的设备上。

开启听写

前往设置 > 通用 > 键盘
开启启用听写
出现提示时确认

要使用它，请打开任何带有文本字段的应用程序，并点击键盘上的麦克风图标。开始说话。再次点击麦克风或键盘图标即可停止。

在运行 iOS 16 或更高版本的 iPhone 和 iPad 上，听写和键盘输入可以同时工作。你可以说出一句话，然后通过键盘手动纠正一个单词，接着继续说话，无需切换模式。这种混合输入是 iOS 上最被低估的生产力功能之一。

实用的细节：

语音输入表情符号：说“爱心表情”或“大拇指表情”，iOS 就会插入相应的表情符号
标点符号：在句子中自然地说出“句号”、“逗号”、“问号”、“感叹号”或“新段落”
语言切换：如果你安装了多个键盘，在大多数情况下，听写会自动检测你正在使用的语言
设备端处理：配备 A12 仿生或更高版本的 iPhone 机型会针对支持的语言在设备端处理听写，这意味着你的音频不会离开手机

Android

Android 的语音转文字功能由 Google 语音识别引擎驱动，并通过 Gboard 或大多数其他键盘应用在系统范围内运行。

在 Gboard 中启用语音打字

Gboard 是大多数 Android 手机上的默认键盘。语音打字通常默认开启，但以下是验证和配置方法：

打开设置 > 系统 > 语言和输入法 > 屏幕键盘 > Gboard
点击语音打字并确保其已开启
或者，只需打开任何文本字段，然后在 Gboard 工具栏上找到麦克风图标。点击它开始听写

在运行 Samsung 键盘的 Samsung 设备上：

打开设置 > 常规管理 > Samsung 键盘设置
点击语音输入并选择你首选的语音引擎

需要调整的关键设置：

离线语音识别：在 Gboard 设置中，前往语音打字 > 离线语音识别下载语言包以便在没有网络时使用。离线准确度较低，但可以消除延迟
自动标点：在 Gboard 中通常默认开启。引擎会在自然停顿处添加句号，并偶尔插入逗号
语音匹配：如果准确度似乎很差，请在设置 > Google > Google 应用设置 > 搜索、助理和语音 > 语音 > Voice Match下重新训练你的语音模型

Google 助理听写

对于快速文本输入，你也可以在支持助理集成的应用中说“嘿 Google，输入……”，随后说出你的消息。这对于简短消息更快，但对于长篇听写不太实用。

Chromebook

ChromeOS 通过其内置的辅助功能以及 Web 应用中的 Google 语音引擎支持听写。

开启听写

前往设置 > 辅助功能 > 键盘和文本输入
开启启用听写
系统托盘中会出现一个小麦克风图标。点击它即可在任何文本字段中开始听写

ChromeOS 听写使用与 Android 相同的 Google 语音引擎。准确度、语言支持和语音命令几乎完全相同。

在 Google Docs 中使用语音打字

如果你主要在 Google Docs 中工作，该应用内置了一个单独的语音打字工具：

打开一个 Google 文档
前往工具 > 语音打字或按 Ctrl + Shift + S
点击左侧边栏出现的麦克风图标并开始说话

Google Docs 语音打字支持 100 多种语言，并包含格式化语音命令：“加粗”、“斜体”、“创建项目符号列表”、“标题 2”等。对于在 Chromebook 上进行的繁重文档工作，这通常比系统级听写更强大。

为什么准确度在第一句之后就下降了

你开启了语音转文字，说了一句话，效果很好。然后你尝试听写一整个段落，结果却一团糟：漏词、同音字错误、标点位置不对。

这是最常见的体验，原因通常不是语音引擎，而是人们在第一次听写时的说话方式。

自然对话包含语气词、错误的开头、句中修正和中断的思绪。当另一个人类在听时，你的大脑会自动纠正这一切。而语音转文字引擎会字面转录所有内容，包括每一个“嗯”、“啊”、“其实等一下”以及完成了一半的想法。

三个能立即提高准确度的调整：

开口前先理清思路。停顿一下，在脑海中形成完整的句子，然后再说出来。这一个习惯就能消除大部分转录错误
显式说出标点符号，直到自动标点跟上为止。大声说出“逗号”和“句号”。这会让你感觉尴尬大约五分钟，然后就会变得自然
进行短促听写，而非长篇大论。说出 2-3 句话，停顿，检查，然后继续。长篇不间断的说话会使引擎的缓冲区过载并增加错误率

内置的语音转文字引擎可以很好地处理简短消息和快速备忘。对于更长的内容，如会议转录、采访、讲座录音或播客脚本，对准确度的要求更高，内置工具就开始显露局限性。

当内置听写达到瓶颈时

设备级的语音转文字是为实时的短篇输入设计的。你说话，它转录，你手动纠正错误，然后继续。对于短信或搜索查询，这已经足够了。

但在以下特定情况下，工作流程会崩溃：

长篇转录：听写一篇 2,000 字的文章意味着每隔几句话就要纠正一次错误。中断会抵消听写原本的速度优势
预录音频：内置听写需要实时麦克风输入。它无法转录音频文件、会议录音或播客剧集
多位发言者：设备听写无法区分声音。在会议或采访中，所有内容都会被合并成一个无差别的文本流
专业词汇：医学术语、法律术语、技术产品名称和非英语词汇经常触发错误识别，且自动纠正往往会让情况变得更糟

这些并不是极端案例。这些正是语音转文字能发挥最大价值的场景，而这恰恰是内置工具表现不足的地方。

适用于音频文件、会议和长篇转录的 AI 语音转文字

Fish Audio 的语音转文字采取了不同的方法。它不是仅限实时麦克风的听写，而是处理音频文件，并使用在多样化语音模式上训练的神经模型生成高准确度的转录。这在实践中意味着：

上传任何音频文件：MP3、WAV、M4A 等标准格式。录制会议、讲座、采访或播客剧集，无需打一个字即可获得文本转录
多语言支持：引擎可处理广泛的语言，并能处理发言者在对话中切换语言的情况
针对长内容更高的准确度：内置听写在长段落中会性能下降，而 Fish Audio 的 STT 模型在几分钟或几小时的音频中都能保持一致性。其神经架构是为持续转录而非短促爆发设计的
无需麦克风：你不需要实时对着设备说话。从任何来源上传录音，即可获取转录结果

对于内容创作者、记者、研究人员以及任何经常需要将口语转换为书面文本的人来说，工作流程从“边听写边不断纠正错误”转变为“自然录音，然后一次性转录全部内容”。

面向开发者的 API 访问

如果你正在构建需要语音转文字功能的应用程序，Fish Audio 的 API 提供了对相同转录引擎的编程访问。使用案例包括：

会议工具：电话会议的自动转录
辅助功能：视频平台的实时字幕
内容流水线：播客剧集或视频旁白的批量转录
语音界面：在应用内将用户语音转换为可执行文本

API 支持用于实时应用的流式处理和用于预录文件的批量处理。详情和定价请参见 fish.audio/plan。

结论

语音转文字在每个主流平台上都可用。Windows 上的 Win + H，Mac 上的 Fn Fn，iPhone 和 Android 上的麦克风图标，以及 Chromebook 上的系统托盘麦克风。开启它只需几秒钟，对于快速消息和简短笔记，内置听写表现尚可。

对于任何更长的内容，内置工具引入的修正负担会抹去速度优势。如果你正在转录录音、处理会议或将长篇音频转换为文本，Fish Audio 的语音转文字可以处理设备级听写无法胜任的工作。上传，转录，搞定。

Kyle Cui

Kyle is a Founding Engineer at Fish Audio and UC Berkeley Computer Scientist and Physicist. He builds scalable voice systems and grew Fish into the #1 global AI text-to-speech platform. Outside of startups, he has climbed 1345 trees so far around the Bay Area. Find his irresistibly clouty thoughts on X at @kile_sway.

阅读Kyle Cui的更多内容