Mac 文字转语音完整指南：设置、使用与禁用方法

2026年2月28日

你在 Pages 中写完了一份 2,000 字的播客脚本，按下“朗读所选内容”快捷键，却听到一个听起来像是 2009 年在微波炉里录制的声音。你深入研究了“系统设置”，发现了六个提及“语音”或“朗读内容”的不同菜单，更改了三处设置，结果反而变得更糟。现在，你的 Mac 会大声朗读每一条通知，而你却不知道该如何关闭它。

macOS 自 2000 年代初就内置了文字转语音（TTS）功能。Apple 在过去几年中对其进行了显著改进，但设置散布在多个面板中，其行为在不同 macOS 版本之间也有所不同，且内置声音的能力与内容创作者的实际需求之间仍存在巨大差距。好消息是：一旦你知道了所有设置的位置，配置只需大约 5 分钟。当你发现内置选项无法满足需求时，升级路径也比大多数人预想的要简单。

macOS 有 3 个独立的 TTS 系统，但大多数人只找到了 1 个

这是最令人困惑的地方。Apple 并没有一个统一的“文字转语音”开关。它有三个重叠的独立系统，分别由不同的地方控制：

系统	功能	查找位置	主要用途
朗读内容 (Spoken Content)	大声朗读选中的文本或整个屏幕	系统设置 > 辅助功能 > 朗读内容	阅读文章、校对、辅助功能
旁白 (VoiceOver)	为视障用户提供的全屏阅读器	系统设置 > 辅助功能 > 旁白	导航、辅助功能
Siri 声音	为 Siri 回复和听写反馈提供动力	系统设置 > Siri	虚拟助手回复

大多数搜索“Mac 文字转语音”的人实际上想要的是朗读内容。该功能可以使用键盘快捷键在任何应用程序中朗读选中的文本。而旁白（VoiceOver）是一个完整的辅助工具，它会叙述屏幕上的所有内容，包括按钮、菜单和窗口标题。当你只想听文本朗读时开启旁白，就像为了点燃蜡烛而叫来一辆消防车。

配置朗读内容：5 分钟快速设置

适用于 macOS Sonoma (14) 及更高版本

打开 系统设置（点击 Apple 菜单 > 系统设置）
点击边栏中的 辅助功能
点击 朗读内容
开启 朗读所选内容
点击“系统声音”旁边的下拉菜单，选择你喜欢的声音
根据你的喜好调整“语速”滑块
如果你想要悬停阅读功能，可以开启 朗读指针下的项目

适用于 macOS Ventura (13) 及更早版本

旧版本的路径略有不同：

打开 系统偏好设置（而非系统设置）
点击 辅助功能
点击左侧边栏中的 朗读内容
勾选 朗读所选内容
点击 系统声音 下拉菜单选择声音
调整语速

键盘快捷键

启用“朗读内容”后，在任何应用程序中选择任何文本，然后按下 Option + Esc 即可收听朗读。你可以自定义此快捷键：

在“朗读内容”设置中，点击“朗读所选内容”旁边的选项
设置你偏好的组合键
启用或禁用屏幕控制器（一个带有播放/暂停/跳过控制的小型浮动面板）

那个屏幕控制器非常值得启用。它让你无需每次都回到系统设置，就能直接暂停、恢复、快进和调整速度。

选择合适的声音（Apple 的选择比你想象的要多）

大多数 Mac 用户只听过 "Samantha" 或默认的 Siri 声音。事实上，Apple 提供了涵盖多种语言的数十种声音，基本声音和可下载的优质声音之间的质量差异非常显著。

如何下载优质声音

前往 系统设置 > 辅助功能 > 朗读内容
点击 系统声音 下拉菜单
点击 管理声音...
按语言浏览。优质声音带有下载图标。
点击任何声音旁边的下载箭头。文件大小从 150 MB 到 900 MB 不等，取决于质量层级。

语音质量层级

Apple 将其语音分为几个质量级别：

紧凑声音：文件体积小，听起来有机械感。适用于快速的系统公告，但不适合收听超过一个段落的内容。
标准声音：中等质量。对于校对短文档来说还不错，但在长篇幅中你会注意到节奏不自然。
优质/增强声音：下载体积最大，但明显更自然。这些声音使用神经网络合成，听起来更接近真人。"Zoe (Premium)"、"Evan (Premium)" 等多个声音都属于这一类。

即使是优质声音也有其局限。它们在 2 到 3 分钟内听起来不错。超过这个时间，语调就会变得平淡，情感变化消失，声音会陷入一种单调的节奏，长时间听起来很累。这不是 bug，而是 Apple 在设备端能够实际提供的模型大小的局限。

在 Mac 应用程序中使用文字转语音

一旦激活“朗读内容”，Option + Esc 快捷键几乎可以在所有 Mac 应用程序中使用。以下是它在最常用应用中的表现：

Pages 和文本编辑：选择文本，按下快捷键。运行非常可靠。声音会朗读选定的段落并停止。

Safari 和 Chrome：选择任何网页上的文本并按下快捷键。适合在做其他事情时听文章。Safari 还有一个单独的阅读模式，可以在阅读前去除页面格式，有时能改善语速节奏。

预览 (PDF)：选择 PDF 中的文本并按下快捷键。质量取决于 PDF 是否包含可选文本。没有 OCR（文字识别）的扫描文档无法使用。

邮件：选择正文，按下快捷键。对于你不想读的长邮件非常方便。

终端：是的，你也可以从命令行触发 TTS。运行 say "你的文本内容"，macOS 就会使用系统声音朗读。对于较长文本：say -f /路径/到/文本文件.txt。你甚至可以导出为音频：say -f script.txt -o output.aiff。这最后一条命令是 macOS 最接近内置音频导出功能的方式。

大多数人不知道的终端技巧

say 命令接受 -v 标志来指定任何已安装的声音：

say -v "Zoe (Premium)" "This is a test of the premium voice."

say -v "?"

第二条命令会列出你系统中安装的所有声音。这是试听声音最快的方法，无需在系统设置中反复点击。

如何禁用文字转语音（当它停不下来时）

本节之所以存在，是因为有相当多数量的 Mac 用户会意外开启旁白（VoiceOver）或朗读内容，却不知道如何让它安静下来。如果你的 Mac 正在叙述屏幕上的所有内容，以下是最快的解决方法：

如果旁白 (VoiceOver) 正在运行（Mac 会叙述每次点击和每个按钮）

立即按下 Cmd + F5。这是旁白的开关。在带有 Touch Bar 的 MacBook 或更新型号上，你也可以连按三次 Touch ID 按钮。

如果“朗读所选内容”在朗读途中停不下来

再次按下 Option + Esc 停止当前朗读。如果不起作用，请点击选定文本之外的任何地方。

如果你的 Mac 朗读通知或警报

前往 系统设置 > 辅助功能 > 朗读内容
关闭 朗读公告
在那里，如果你不想要悬停阅读，请同时检查并关闭 朗读指针下的项目

完全禁用清单

要完全静止 Mac 上的所有 TTS：

朗读内容：系统设置 > 辅助功能 > 朗读内容 > 关闭所有开关
旁白 (VoiceOver)：系统设置 > 辅助功能 > 旁白 > 关闭（或按 Cmd + F5）
Siri 语音反馈：系统设置 > Siri > 语音反馈 > 关闭
声音警报：系统设置 > 声音 > 取消勾选“启动时播放声音”并调整警报音量

完成此清单后，除非你明确再次触发语音，否则你的 Mac 将保持静默。

macOS TTS 的瓶颈（以及后续方案）

Apple 的内置声音足以应对两件事：短文档的快速校对和辅助功能。除此之外，你将遇到硬性限制：

无声音自定义：除了单一的语速滑块，你无法调整情感、重音或节奏。声音在朗读笑话和悲剧时用的是同一种语调。
声音选择有限：即使下载了所有优质声音，你也只能在 15-20 个英语选项中选择。如果你在内容创作中需要特定的语气、口音或个性，这个库就太小了。
无声音克隆：无法创建听起来像你或符合特定品牌调性的声音。
音频导出非常原始：say 命令只能导出为 AIFF，没有内置的方法来生成带有适当标准化的 MP3、WAV 或播客就绪的音频。
多语言质量下降快：Apple 的优质声音在英语方面很强。切换到泰语、阿拉伯语或葡萄牙语，质量就会退回到机械感十足的水平。
缺乏长文本一致性：语调在 2-3 分钟后会发生漂移，使长时间收听变得疲劳。一段 20 分钟的脚本，第 18 分钟听起来会比第 1 分钟明显变差。

如果你只是用 TTS 来检查邮件中的错别字，这些限制并不重要。但如果你正在制作 YouTube 视频、录制课程或将文字内容转换为受众真正愿意听的音频，这些限制就至关重要了。

从 Mac 校对到专业音频制作

当你的需求超出了内置声音的范畴，工作流的转变非常直接：继续在 Mac 上写作，但通过专门的 AI TTS 平台生成音频。

Fish Audio 弥补了 macOS 留下的空白。以下是切换后的变化：

超过 2,000,000 种声音，而不是 20 种。 Fish Audio 的声音库按语言、口音、语气和使用场景分类。需要一个温暖、自然的美国英语声音来制作教程？直接筛选即可。需要一个干练的日语旁白来制作本地化产品视频？那里也有。选择范围比 Apple 提供的要大 100,000 倍左右。

长脚本下依然稳定的语调。 Fish Audio 的模型架构可以处理长文本中的情感变化和节奏。一段 15 分钟的配音从头到尾都能保持其特色，不会出现 macOS 声音在 2-3 分钟后出现的单调漂移。疑问句听起来像疑问句，重音也会落在该落的地方。

15 秒声音克隆。 想让每一段音频听起来都像你？上传一段 15 秒的样本，Fish Audio 就能创建一个克隆，在你生成的任何文本中承载你的声音特征。Apple 没有任何类似的功能。

13+ 种语言且质量不缩水。 Fish Audio 在其完整语言集中保持了母语级别的发音。在英语中听起来自然的声音，在西班牙语、中文、日语和阿拉伯语中同样保持自然。切换语言时不会出现突然的质量断崖。

生产级音频文件。 生成并下载适用于 YouTube、播客平台、课程平台或任何其他分发渠道的 MP3 或 WAV 文件。无需 Terminal 命令行操作，也无需 AIFF 转 MP3 的复杂流程。

Mac 创作者的工作流

在 Pages、Google Docs 或任何 Mac 文本编辑器中撰写脚本
使用 macOS 朗读内容 (Option + Esc) 快速校对，捕捉生硬的措辞
复制最终文本并将其粘贴到 fish.audio/text-to-speech
从库中选择一个声音（或使用你的克隆声音）
调整情感和节奏以匹配你的内容
生成并下载音频文件
放入你的项目：Final Cut Pro、Logic Pro、GarageBand、播客编辑器，或任何你使用的工具

这种工作流让 macOS TTS 发挥其优势（免费、即时的校对），并将 Fish Audio 用于真正需要专业音质的部分。

费用说明

Fish Audio 提供免费额度，足以支持使用真实脚本进行测试。付费方案起步价为每月 11 美元，包含 250,000 积分，可生成约 200 分钟（~3小时20分）的 S1 语音，或高达 400 分钟（~6小时40分）的 v1.5 或 v1.6 语音。作为对比，macOS TTS 是免费的，但无法导出可用的音频文件。而聘请真人配音演员制作 15 小时的录制内容可能耗资 3,000 到 15,000 美元。详细的价格说明请点击这里。

结论

macOS 拥有功能强大的文字转语音 (TTS) 系统，只是隐藏在散乱的设置面板背后。一旦你知道“朗读内容”才是你真正需要的功能，Option + Esc 是快捷键，并且存在优质声音下载，内置的 Mac 文字转语音设置就能很好地处理快速校对和日常收听需求。如果旁白 (VoiceOver) 意外开始叙述整个屏幕，Cmd+F5 就是你的紧急求救键。

但内置声音是为辅助功能和系统反馈设计的，而非内容制作。当你需要一段受众能听超过 2 分钟的音频、需要符合品牌的语音，或需要听起来不像翻译引擎的多语言输出时，Apple 的内置功能就捉襟见肘了。在 Mac 上写作，用“朗读内容”校对，然后用 Fish Audio 进行生产。将你已有的写作工具，与专门为听众打造的文字转语音引擎完美结合。

创造真实感的声音

立即开始生成最高质量的音频。

免费注册

已有账号？登录

分享这篇文章

Kyle Cui

Kyle is a Founding Engineer at Fish Audio and UC Berkeley Computer Scientist and Physicist. He builds scalable voice systems and grew Fish into the #1 global AI text-to-speech platform. Outside of startups, he has climbed 1345 trees so far around the Bay Area. Find his irresistibly clouty thoughts on X at @kile_sway.

阅读Kyle Cui的更多内容 >