Mac 语音转文字完整指南：macOS 语音输入设置与使用技巧

2026年2月28日

指南

连续打字八小时，写了 4,000 字，你的手腕正提醒你它们也有极限。你开启了 Mac 语音转文字（Mac 听写），开始说话，看着前两句话完美地显示出来。接着你停下来思考了 30 秒，结果 Mac 听写自动关闭了。你重新启动它，这次说得更快了，却发现它在随机给单词大写，而且忽略了每一个逗号。到第三次重新启动时，你花在与工具作斗争上的时间已经超过了打字的时间。

Mac 内置的语音转文字功能比大多数用户意识到的要强大得多，但它的默认行为不符合直觉，设置散布在多个系统面板中，且没有宣传其最实用的功能。普通人每分钟打字 40 个单词，而 Mac 语音打字每分钟可以捕捉 130-160 个单词。一旦设置正确，这种 3-4 倍的速度提升是实打实的；但如果“听写”在静音约 30 秒后仍会自动停止，那这种提升就毫无意义。

2026 年的 Mac 听写：两种引擎，一个让人困惑的开关

Apple 目前在 macOS 中提供两种听写系统，它们之间的差异会影响准确度、隐私以及你可以在不中断的情况下听写多长时间。

功能	增强听写（设备端）	标准听写（基于服务器）
处理方式	在 Mac 本地处理，无需联网	Apple 服务器处理，需要联网
连续听写	是，无时间限制	停顿后自动停止
隐私	音频永远不会离开设备	音频发送给 Apple 进行处理
准确度	对支持的语言表现极佳	在极端情况下表现略好
存储	每种语言需下载 1-2 GB	无需本地存储
可用性	搭载 Apple Silicon 且运行 macOS Ventura 13+	所有 macOS 版本

在运行 macOS Ventura 或更高版本的 Apple Silicon Mac 上，设备端听写是默认设置。它利用 Neural Engine 在本地处理语音，因此不会超时，不需要 Wi-Fi，也不会将你的音频发送到 Apple 的服务器。

在较旧的 Intel Mac 上，你只能使用基于服务器的听写，这需要互联网连接，并且往往在短暂停顿后自动停止。这种自动停止的行为正是大多数试用一次就放弃听写的用户感到沮丧的原因。

如果你不确定运行的是哪个版本，请检查 系统设置 > 键盘 > 听写。如果你看到提及“设备端听写”，则表示你正在使用本地引擎。

设置听写：正确的方法（而非显而易见的方法）

大多数人是在按下键盘上的麦克风键时偶然发现听写功能的。设置很简单，但有两个不那么明显的设置会极大地影响体验。

基础设置

打开 系统设置（Apple 菜单 > 系统设置）
在侧边栏点击键盘
向下滚动到听写并将其开启
选择你的语言（你可以添加多种语言）
设置你的 快捷键（默认是连按两下 Fn 键，但也可以选择“按 Fn 键”或自定义快捷键）
如果系统提示，请下载对应语言的设备端语音识别模型

大多数人忽略的两个设置

自动标点。 从 macOS Sonoma 开始，Apple 默认启用了自动标点功能。听写会根据你的说话模式插入句号、逗号和问号，而无需你大声说出“句号”或“逗号”。如果该功能不起作用，请确保你运行的是 macOS 14 或更高版本，且听写语言为英语、西班牙语、法语、德语、意大利语、葡萄牙语、中文、韩语或日语（自动标点尚未支持所有语言）。

麦克风来源。 默认情况下，macOS 使用系统配置的麦克风。如果你发现准确度较差，解决方法通常是硬件而非软件。前往 系统设置 > 声音 > 输入，确保它指向你表现最好的麦克风。即使是便宜的 USB 麦克风，只要靠近嘴部，通常也能比内置麦克风提高听写准确度。

如何在 Mac 上实际进行听写（各应用详解）

开启 Mac 听写后，激活方式随处通用：按下快捷键（默认：连按两次 Fn），开始说话，再次按下快捷键停止。但在不同应用中表现略有不同。

Pages 和 TextEdit

Mac 上最干净的听写体验。放置光标，激活 Mac 语音转文字，然后开始说话。文字会实时出现。你可以在打字和说话之间切换，进行连续听写。在 macOS Sonoma 及更高版本中，你不需要停止 Mac 听写即可使用键盘进行快速编辑。

备忘录 (Notes)

适用于头脑风暴和会议记录。一个实用的技巧：创建一个新备忘录，启动听写，将其作为语音草稿本。备忘录会同步到 iCloud，因此你听写的文本可以立即在 iPhone 和 iPad 上使用。

邮件 (Mail)

Mac 听写在撰写窗口中有效。适用于打字感觉繁琐的长邮件回复。一个怪癖：如果你听写 URL 或电子邮件地址，准确度会显著下降。请逐个字母拼写或手动输入。

Safari 和 Chrome（文本字段）

听写在任何网页文本字段中都有效，包括 Google Docs、Notion、Slack 和社交媒体发布框。话虽如此，基于 Web 的文本编辑器有时处理实时插入的方式不同，可能会导致光标跳动问题。如果你发现文本出现在错误的地方，请点击重新定位光标并重启听写。

终端 (Terminal)

听写在终端中技术上可行，但不切实际。命令语法、旗标和文件路径很难准确转化为语音识别。在终端中还是坚持打字吧。

让听写变成真正编辑的语音命令

大多数 Mac 用户只是听写文本，然后切换到键盘和鼠标来修复所有内容。这样就失去了一半的价值。macOS 支持标点、格式和基础编辑的语音命令，可以消除大部分听写后的清理工作。

标点符号（听写时说出这些词）：

“句号” / “句点”
“逗号”
“问号”
“感叹号”
“冒号” / “分号”
“左引号” ... “右引号”
“左括号” ... “右括号”
“破折号”（插入连字符）
“省略号”

行与段落控制：

“新行”（移至下一行）
“新段落”（插入段落分隔符）
“Tab 键”

编辑命令：

“选择上一个词” / “选择下一个词”
“全选”
“删除那个”（移除最后听写的短语）
“撤销”
“大写开启” ... “大写关闭”（用于全大写部分）
“数字 [数字]”（强制使用数字格式，例如，“数字 5” → 5 而不是“五”）

很多人没意识到的一点是：在 macOS Sonoma 及更高版本中，你可以实时混合打字和听写。听写一段话，用鼠标点击其他地方，输入修正内容，然后继续听写。旧版本中“要么听写要么打字，不能兼得”的行为在较新系统中已不复存在。

5 个准确度杀手（以及如何修复每一个）

如果你觉得 Mac 听写的准确度不如预期，通常是由以下五个因素之一造成的。

1. 嘈杂房间内的内置笔记本麦克风。 最大的准确度杀手。MacBook 麦克风是为 FaceTime 通话设计的，而非连续听写。在安静环境下，将一个 USB 电容麦克风（约 15-30 美元）放在离嘴部 6-8 英寸的地方，准确度将从约 85% 提升到 95% 以上。

2. 说话太快且没有停顿。 听写按块处理语音。如果你把句子连在一起而没有自然停顿，模型就会失去上下文边界并误识别单词。以谈话节奏说话，句子之间留出 0.5 秒的停顿。比自然语速稍慢，比刻意发音稍快。

3. 非标准口音或方言。 Apple 的模型能很好地处理主流英语口音（美式、英式、澳式），但在面对强烈的地区方言和浓重的非母语口音时会感到吃力。由于模型运行连续上下文，设备端处理往往比基于服务器的处理略微宽容，但对于口音模式较少见的说话者来说，差距依然明显。

4. 背景音频干扰。 音乐、电视、他人交谈。即使音量很低，竞争音频也会干扰模型。使用耳机收听音频，让麦克风频道只保留你的声音。

5. 未训练系统。 macOS 会随着时间的推移从你的听写模式中学习，但前提是你使用键盘纠正错误（而不是重新听写覆盖）。当“听写”出错时，点击它，输入修正内容，然后继续。经过数天和数周，系统对你特定词汇和说话模式的准确度会不断提高。

Mac 听写无法触及的领域（以及该用什么替代）

Mac 听写在其预期用途上表现非常出色：实时将现场语音转换为文字，一次一个说话者，一个麦克风，一种语言。但它也有硬性边界，无论如何升级麦克风或训练都无法修复。

无音频文件转写。 你无法向“听写”提供 MP3、Zoom 录音或语音备忘录。它只处理实时麦克风输入。如果你有采访、讲座、播客或会议的录音需要转录，听写帮不上忙。

无说话人识别。 听写没有“谁在说话”的概念。如果你通过扬声器播放两人采访录音来转录（音频回环权宜之计），你会得到一堆没有任何说话人标签的混乱文本。

每次会话仅限单一语言。 你可以用英语或西班牙语听写，但不能在同一次会话中同时使用。切换语言需要停止 Mac 听写，更改语言设置，然后重启 Mac 听写。对于双语使用者或多语言内容，这是个流程杀手。

无时间戳。 听写生成的是纯文本。没有办法获得音频参考的时间戳，这对于记者、研究人员以及任何需要将转录追溯到录音中特定时刻的人来说至关重要。

不完美音频的准确度上限。 听写假设的是清晰的、直连麦克风的语音。一旦音频质量下降，哪怕只是轻微下降（手机录音、房间回音、街道噪音），准确度就会跌破临界点，此时编辑转录文本所花的时间甚至比从头打字还要长。

从实时听写转向 Fish Audio 的全能音频转写

当你的需求从“记录自己的想法”跨越到“转录录音文件”时，专业的语音转文字工具将接手 Mac 听写力所不及的工作。

Fish Audio 的语音转文字专为 macOS 无法处理的场景而设计。以下是它带来的改变：

上传任何音频文件。 MP3、WAV、M4A、采访录音、Zoom 导出文件、语音备忘录、播客剧集。放入文件，获得转录。无需实时播放技巧，无需音频回环路由，无需实时等待。在批量模式下，处理速度通常约为音频时长的 0.3-0.5 倍（例如，10 分钟的文件可能在 ~3-5 分钟内完成），因此较长的文件相应需要更长的时间。

应对现实音频的准确度。 Fish Audio 的模型经过各种录音条件的训练，包括手机音质、房间回音、背景噪音和重叠语音。录音棚录音与咖啡馆采访之间的准确度差距，要比你通过 Mac 听写回环方案得到的差距小得多。

无需切换会话的多语言转写。 Fish Audio 的语音转文字支持 100 多种语言和方言；其 STT 常见问题解答中明确提到了英语、普通话、粤语、日语和韩语，并表示多语言代码切换是自动处理的。如果你的录音包含英语和普通话或西班牙语和葡萄牙语的混说，模型会在同一文件中处理语言转换，而不需要分会话处理。

Mac 用户的实用工作流：

实时初稿和头脑风暴：使用 Mac 听写。它是免费内置的，非常适合在安静的房间里进行个人听写。连按两下 Fn，开说，搞定。
转录录音文件：使用 Fish Audio STT。上传文件，获取干净的转录文本，然后将其粘贴到 Mac 文本编辑器中。
从完成的文本生成音频：使用 Fish Audio TTS，拥有 2,000,000+ 声音、15 秒语音克隆以及支持 8 种语言。

这个组合覆盖了完整的“语音-文字-语音”循环。Mac 听写免费处理实时输入端。Fish Audio 处理所有需要音频文件处理、多语言支持或生产级输出的任务。这两个工具相辅相成，而非相互竞争。

价格

Fish Audio 的免费层级足够大方，可以让你用真实的录音而不仅仅是样本剪辑进行测试。付费方案起价为每月 11 美元，包含 60 万字符的 TTS 输出，并包含 STT 使用额度。作为参考：专业的人工转录服务每音频分钟收费 1 到 3 美元。一份 60 分钟的采访转录从服务机构获取需要花费 60-180 美元，并且需要 24-48 小时。Fish Audio 处理同一个文件不到 2 分钟。完整价格表在此。

结论

Mac 听写是 macOS 中最被低估的效率功能。通过正确设置（合适的麦克风、启用设备端引擎、开启自动标点），学习十个语音命令，你起草内容的速度将达到打字速度的 3-4 倍，且无需付出后期的手腕健康代价。它在自己的领域确实表现出色。

它做不到的是转录录音、在一次会话中处理多种语言，或者处理并非直接对着 Mac 麦克风说出的音频。对于这些工作流，最清晰的路径是保留 Mac 听写用于实时输入，并添加 Fish Audio 处理其他所有事务：输入端的音频转写，以及输出端的专业语音生成。从免费层级开始，测试一下你那些躺在语音备忘录应用里正等待转录的录音吧。

常见问题解答

是的，如果你使用的是搭载 Apple Silicon (M1, M2, M3, M4) 且运行 macOS Ventura 或更高版本的 Mac，它使用设备端听写，可以离线工作。

确保在键盘设置中启用了“设备端听写”。在旧款 Mac 或连接较差的情况下，基于服务器的听写会在大约 30 秒的静音后自动停止。

是的，Fish Audio STT 针对现实世界的音频质量进行了优化，包括 Mac 内置听写功能难以处理的电话录音和语音备忘录。

创造真实感的声音

立即开始生成最高质量的音频。

免费注册

已有账号？登录

分享这篇文章

Kyle Cui

Kyle is a Founding Engineer at Fish Audio and UC Berkeley Computer Scientist and Physicist. He builds scalable voice systems and grew Fish into the #1 global AI text-to-speech platform. Outside of startups, he has climbed 1345 trees so far around the Bay Area. Find his irresistibly clouty thoughts on X at @kile_sway.

阅读Kyle Cui的更多内容 >