如何在任何设备上开启语音转文字并开始听写
大多数人的打字速度是每分钟 40 个单词,而说话速度通常是 130 个。每次你用大拇指在手机上打字、在电脑上费力地敲击键盘或在会议后手动转录笔记时,都在浪费这 3 倍的速度差。
语音转文字(也称为听写或语音打字)可以将你说的内容实时转换为书面文本。几乎所有主流设备都内置了这一功能。开启它非常简单,但要获得准确的结果,你需要了解一些设置界面没告诉你的技巧。
Windows 10 和 11
Windows 有两个语音转文字工具。“语音打字”是轻量级的听写工具,而“Windows 语音识别”则是较旧但更全面的系统。
开启语音打字
“语音打字”是更快的选择,也是 Microsoft 积极维护的功能。它适用于系统中的任何文本字段。
- 按 Win + H 打开语音打字工具栏。屏幕顶部会出现一个小麦克风面板
- 点击麦克风图标或再次按 Win + H 开始听写
- 自然地说话。Windows 会实时转录并在光标位置插入文本
首次设置注意事项:
- 麦克风权限:Windows 可能会提示你授予麦克风访问权限。请允许它。否则,语音打字将无法运行
- 联机语音识别:为了获得更好的准确度,请确保在设置 > 隐私和安全性 > 语音中启用了“联机语音识别”。基于云的模型比离线回退方案准确得多
- 自动标点:语音打字可以自动插入句号、逗号和问号。可以通过语音打字工具栏上的齿轮图标开启此功能
听写时可以说的语音命令:
- “句号”、“逗号”、“问号”、“感叹号”来插入标点符号
- “换行”或“新段落”来创建分行
- “删除那个”来删除上一个短语
- “停止听写”来关闭麦克风
Windows 语音识别
较旧的“语音识别”工具提供更广泛的控制,包括用于导航 Windows、打开应用程序和点击按钮的语音命令。它功能更强大,但也更复杂。
- 打开设置 > 辅助功能 > 语音 (Windows 11) 或在“开始”菜单中搜索“Windows 语音识别”
- 按照设置向导进行操作,其中包括麦克风校准步骤和简短的语音训练练习
对于纯粹的听写,“语音打字”是更好的选择。如果你想完全通过语音控制电脑,那么 Windows 语音识别值得一试。
macOS
macOS 提供系统级的“听写”功能,以及用于离线使用的“增强听写”。
开启听写
- 打开系统设置 > 键盘
- 滚动到听写部分并将其开启
- macOS 会要求你确认并可能会下载语言模型
启用后,按键盘上的麦克风键(在新款 Mac 上)或连按两次 Fn 键(或你配置的任何快捷键),即可在任何文本字段中开始听写。
值得检查的配置:
- 语言:点击语言下拉菜单以添加其他听写语言。macOS 支持多种语言同时使用,引擎会自动检测你正在说哪种语言
- 自动标点:开启此功能,让 macOS 根据你的语速和语调插入句号、逗号和问号
- 快捷键:如果连按 Fn 键感觉不方便,可以在听写设置下自定义激活快捷键
默认情况下,macOS 听写会将音频发送到 Apple 的服务器进行处理。在运行 macOS Ventura 或更高版本的 Apple Silicon Mac 上,支持的语言可以使用设备端处理,从而将音频保留在本地。
语音控制
“语音控制”是 macOS 完整的语音命令系统。它超越了听写的范畴,让你能够使用语音命令进行导航、点击、滚动和编辑。
- 打开系统设置 > 辅助功能 > 语音控制并开启
“语音控制”完全使用设备端处理且可离线工作。它主要为需要完全免提操作的辅助功能用户设计,但作家和高级用户有时也会因其精确的编辑命令(如“选择上一句”或“将那个大写”)而采用它。
iPhone 和 iPad
iOS 自 2011 年起就内置了听写功能。其准确度已大幅提升,尤其是在配备 Apple 神经网络引擎的设备上。
开启听写
- 前往设置 > 通用 > 键盘
- 开启启用听写
- 出现提示时确认
要使用它,请打开任何带有文本字段的应用程序,并点击键盘上的麦克风图标。开始说话。再次点击麦克风或键盘图标即可停止。
在运行 iOS 16 或更高版本的 iPhone 和 iPad 上,听写和键盘输入可以同时工作。你可以说出一句话,然后通过键盘手动纠正一个单词,接着继续说话,无需切换模式。这种混合输入是 iOS 上最被低估的生产力功能之一。
实用的细节:
- 语音输入表情符号:说“爱心表情”或“大拇指表情”,iOS 就会插入相应的表情符号
- 标点符号:在句子中自然地说出“句号”、“逗号”、“问号”、“感叹号”或“新段落”
- 语言切换:如果你安装了多个键盘,在大多数情况下,听写会自动检测你正在使用的语言
- 设备端处理:配备 A12 仿生或更高版本的 iPhone 机型会针对支持的语言在设备端处理听写,这意味着你的音频不会离开手机
Android
Android 的语音转文字功能由 Google 语音识别引擎驱动,并通过 Gboard 或大多数其他键盘应用在系统范围内运行。
在 Gboard 中启用语音打字
Gboard 是大多数 Android 手机上的默认键盘。语音打字通常默认开启,但以下是验证和配置方法:
- 打开设置 > 系统 > 语言和输入法 > 屏幕键盘 > Gboard
- 点击语音打字并确保其已开启
- 或者,只需打开任何文本字段,然后在 Gboard 工具栏上找到麦克风图标。点击它开始听写
在运行 Samsung 键盘的 Samsung 设备上:
- 打开设置 > 常规管理 > Samsung 键盘设置
- 点击语音输入并选择你首选的语音引擎
需要调整的关键设置:
- 离线语音识别:在 Gboard 设置中,前往语音打字 > 离线语音识别下载语言包以便在没有网络时使用。离线准确度较低,但可以消除延迟
- 自动标点:在 Gboard 中通常默认开启。引擎会在自然停顿处添加句号,并偶尔插入逗号
- 语音匹配:如果准确度似乎很差,请在设置 > Google > Google 应用设置 > 搜索、助理和语音 > 语音 > Voice Match下重新训练你的语音模型
Google 助理听写
对于快速文本输入,你也可以在支持助理集成的应用中说“嘿 Google,输入……”,随后说出你的消息。这对于简短消息更快,但对于长篇听写不太实用。
Chromebook
ChromeOS 通过其内置的辅助功能以及 Web 应用中的 Google 语音引擎支持听写。
开启听写
- 前往设置 > 辅助功能 > 键盘和文本输入
- 开启启用听写
- 系统托盘中会出现一个小麦克风图标。点击它即可在任何文本字段中开始听写
ChromeOS 听写使用与 Android 相同的 Google 语音引擎。准确度、语言支持和语音命令几乎完全相同。
在 Google Docs 中使用语音打字
如果你主要在 Google Docs 中工作,该应用内置了一个单独的语音打字工具:
- 打开一个 Google 文档
- 前往工具 > 语音打字或按 Ctrl + Shift + S
- 点击左侧边栏出现的麦克风图标并开始说话
Google Docs 语音打字支持 100 多种语言,并包含格式化语音命令:“加粗”、“斜体”、“创建项目符号列表”、“标题 2”等。对于在 Chromebook 上进行的繁重文档工作,这通常比系统级听写更强大。
为什么准确度在第一句之后就下降了
你开启了语音转文字,说了一句话,效果很好。然后你尝试听写一整个段落,结果却一团糟:漏词、同音字错误、标点位置不对。
这是最常见的体验,原因通常不是语音引擎,而是人们在第一次听写时的说话方式。
自然对话包含语气词、错误的开头、句中修正和中断的思绪。当另一个人类在听时,你的大脑会自动纠正这一切。而语音转文字引擎会字面转录所有内容,包括每一个“嗯”、“啊”、“其实等一下”以及完成了一半的想法。
三个能立即提高准确度的调整:
- 开口前先理清思路。停顿一下,在脑海中形成完整的句子,然后再说出来。这一个习惯就能消除大部分转录错误
- 显式说出标点符号,直到自动标点跟上为止。大声说出“逗号”和“句号”。这会让你感觉尴尬大约五分钟,然后就会变得自然
- 进行短促听写,而非长篇大论。说出 2-3 句话,停顿,检查,然后继续。长篇不间断的说话会使引擎的缓冲区过载并增加错误率
内置的语音转文字引擎可以很好地处理简短消息和快速备忘。对于更长的内容,如会议转录、采访、讲座录音或播客脚本,对准确度的要求更高,内置工具就开始显露局限性。
当内置听写达到瓶颈时
设备级的语音转文字是为实时的短篇输入设计的。你说话,它转录,你手动纠正错误,然后继续。对于短信或搜索查询,这已经足够了。
但在以下特定情况下,工作流程会崩溃:
- 长篇转录:听写一篇 2,000 字的文章意味着每隔几句话就要纠正一次错误。中断会抵消听写原本的速度优势
- 预录音频:内置听写需要实时麦克风输入。它无法转录音频文件、会议录音或播客剧集
- 多位发言者:设备听写无法区分声音。在会议或采访中,所有内容都会被合并成一个无差别的文本流
- 专业词汇:医学术语、法律术语、技术产品名称和非英语词汇经常触发错误识别,且自动纠正往往会让情况变得更糟
这些并不是极端案例。这些正是语音转文字能发挥最大价值的场景,而这恰恰是内置工具表现不足的地方。
适用于音频文件、会议和长篇转录的 AI 语音转文字
Fish Audio 的语音转文字采取了不同的方法。它不是仅限实时麦克风的听写,而是处理音频文件,并使用在多样化语音模式上训练的神经模型生成高准确度的转录。
这在实践中意味着:
- 上传任何音频文件:MP3、WAV、M4A 等标准格式。录制会议、讲座、采访或播客剧集,无需打一个字即可获得文本转录
- 多语言支持:引擎可处理广泛的语言,并能处理发言者在对话中切换语言的情况
- 针对长内容更高的准确度:内置听写在长段落中会性能下降,而 Fish Audio 的 STT 模型在几分钟或几小时的音频中都能保持一致性。其神经架构是为持续转录而非短促爆发设计的
- 无需麦克风:你不需要实时对着设备说话。从任何来源上传录音,即可获取转录结果
对于内容创作者、记者、研究人员以及任何经常需要将口语转换为书面文本的人来说,工作流程从“边听写边不断纠正错误”转变为“自然录音,然后一次性转录全部内容”。
面向开发者的 API 访问
如果你正在构建需要语音转文字功能的应用程序,Fish Audio 的 API 提供了对相同转录引擎的编程访问。使用案例包括:
- 会议工具:电话会议的自动转录
- 辅助功能:视频平台的实时字幕
- 内容流水线:播客剧集或视频旁白的批量转录
- 语音界面:在应用内将用户语音转换为可执行文本
API 支持用于实时应用的流式处理和用于预录文件的批量处理。详情和定价请参见 fish.audio/plan。
结论
语音转文字在每个主流平台上都可用。Windows 上的 Win + H,Mac 上的 Fn Fn,iPhone 和 Android 上的麦克风图标,以及 Chromebook 上的系统托盘麦克风。开启它只需几秒钟,对于快速消息和简短笔记,内置听写表现尚可。
对于任何更长的内容,内置工具引入的修正负担会抹去速度优势。如果你正在转录录音、处理会议或将长篇音频转换为文本,Fish Audio 的语音转文字可以处理设备级听写无法胜任的工作。上传,转录,搞定。

Kyle is a Founding Engineer at Fish Audio and UC Berkeley Computer Scientist and Physicist. He builds scalable voice systems and grew Fish into the #1 global AI text-to-speech platform. Outside of startups, he has climbed 1345 trees so far around the Bay Area. Find his irresistibly clouty thoughts on X at @kile_sway.
阅读Kyle Cui的更多内容
