Mac 文字转语音完整指南:设置、使用与禁用方法

2026年2月28日

Mac 文字转语音完整指南:设置、使用与禁用方法

你在 Pages 中写完了一份 2,000 字的播客脚本,按下“朗读所选内容”快捷键,却听到一个听起来像是 2009 年在微波炉里录制的声音。你深入研究了“系统设置”,发现了六个提及“语音”或“朗读内容”的不同菜单,更改了三处设置,结果反而变得更糟。现在,你的 Mac 会大声朗读每一条通知,而你却不知道该如何关闭它。

macOS 自 2000 年代初就内置了文字转语音(TTS)功能。Apple 在过去几年中对其进行了显著改进,但设置散布在多个面板中,其行为在不同 macOS 版本之间也有所不同,且内置声音的能力与内容创作者的实际需求之间仍存在巨大差距。好消息是:一旦你知道了所有设置的位置,配置只需大约 5 分钟。当你发现内置选项无法满足需求时,升级路径也比大多数人预想的要简单。

macOS 有 3 个独立的 TTS 系统,但大多数人只找到了 1 个

这是最令人困惑的地方。Apple 并没有一个统一的“文字转语音”开关。它有三个重叠的独立系统,分别由不同的地方控制:

系统功能查找位置主要用途
朗读内容 (Spoken Content)大声朗读选中的文本或整个屏幕系统设置 > 辅助功能 > 朗读内容阅读文章、校对、辅助功能
旁白 (VoiceOver)为视障用户提供的全屏阅读器系统设置 > 辅助功能 > 旁白导航、辅助功能
Siri 声音为 Siri 回复和听写反馈提供动力系统设置 > Siri虚拟助手回复

大多数搜索“Mac 文字转语音”的人实际上想要的是朗读内容。该功能可以使用键盘快捷键在任何应用程序中朗读选中的文本。而旁白(VoiceOver)是一个完整的辅助工具,它会叙述屏幕上的所有内容,包括按钮、菜单和窗口标题。当你只想听文本朗读时开启旁白,就像为了点燃蜡烛而叫来一辆消防车。

配置朗读内容:5 分钟快速设置

适用于 macOS Sonoma (14) 及更高版本

  1. 打开 系统设置(点击 Apple 菜单 > 系统设置)
  2. 点击边栏中的 辅助功能
  3. 点击 朗读内容
  4. 开启 朗读所选内容
  5. 点击“系统声音”旁边的下拉菜单,选择你喜欢的声音
  6. 根据你的喜好调整“语速”滑块
  7. 如果你想要悬停阅读功能,可以开启 朗读指针下的项目

适用于 macOS Ventura (13) 及更早版本

旧版本的路径略有不同:

  1. 打开 系统偏好设置(而非系统设置)
  2. 点击 辅助功能
  3. 点击左侧边栏中的 朗读内容
  4. 勾选 朗读所选内容
  5. 点击 系统声音 下拉菜单选择声音
  6. 调整语速

键盘快捷键

启用“朗读内容”后,在任何应用程序中选择任何文本,然后按下 Option + Esc 即可收听朗读。你可以自定义此快捷键:

  1. 在“朗读内容”设置中,点击“朗读所选内容”旁边的 选项
  2. 设置你偏好的组合键
  3. 启用或禁用屏幕控制器(一个带有播放/暂停/跳过控制的小型浮动面板)

那个屏幕控制器非常值得启用。它让你无需每次都回到系统设置,就能直接暂停、恢复、快进和调整速度。

选择合适的声音(Apple 的选择比你想象的要多)

大多数 Mac 用户只听过 "Samantha" 或默认的 Siri 声音。事实上,Apple 提供了涵盖多种语言的数十种声音,基本声音和可下载的优质声音之间的质量差异非常显著。

如何下载优质声音

  1. 前往 系统设置 > 辅助功能 > 朗读内容
  2. 点击 系统声音 下拉菜单
  3. 点击 管理声音...
  4. 按语言浏览。优质声音带有下载图标。
  5. 点击任何声音旁边的下载箭头。文件大小从 150 MB 到 900 MB 不等,取决于质量层级。

语音质量层级

Apple 将其语音分为几个质量级别:

  • 紧凑声音:文件体积小,听起来有机械感。适用于快速的系统公告,但不适合收听超过一个段落的内容。
  • 标准声音:中等质量。对于校对短文档来说还不错,但在长篇幅中你会注意到节奏不自然。
  • 优质/增强声音:下载体积最大,但明显更自然。这些声音使用神经网络合成,听起来更接近真人。"Zoe (Premium)"、"Evan (Premium)" 等多个声音都属于这一类。

即使是优质声音也有其局限。它们在 2 到 3 分钟内听起来不错。超过这个时间,语调就会变得平淡,情感变化消失,声音会陷入一种单调的节奏,长时间听起来很累。这不是 bug,而是 Apple 在设备端能够实际提供的模型大小的局限。

在 Mac 应用程序中使用文字转语音

一旦激活“朗读内容”,Option + Esc 快捷键几乎可以在所有 Mac 应用程序中使用。以下是它在最常用应用中的表现:

Pages 和文本编辑:选择文本,按下快捷键。运行非常可靠。声音会朗读选定的段落并停止。

Safari 和 Chrome:选择任何网页上的文本并按下快捷键。适合在做其他事情时听文章。Safari 还有一个单独的阅读模式,可以在阅读前去除页面格式,有时能改善语速节奏。

预览 (PDF):选择 PDF 中的文本并按下快捷键。质量取决于 PDF 是否包含可选文本。没有 OCR(文字识别)的扫描文档无法使用。

邮件:选择正文,按下快捷键。对于你不想读的长邮件非常方便。

终端:是的,你也可以从命令行触发 TTS。运行 say "你的文本内容",macOS 就会使用系统声音朗读。对于较长文本:say -f /路径/到/文本文件.txt。你甚至可以导出为音频:say -f script.txt -o output.aiff。这最后一条命令是 macOS 最接近内置音频导出功能的方式。

大多数人不知道的终端技巧

say 命令接受 -v 标志来指定任何已安装的声音:

say -v "Zoe (Premium)" "This is a test of the premium voice."

say -v "?"

第二条命令会列出你系统中安装的所有声音。这是试听声音最快的方法,无需在系统设置中反复点击。

如何禁用文字转语音(当它停不下来时)

本节之所以存在,是因为有相当多数量的 Mac 用户会意外开启旁白(VoiceOver)或朗读内容,却不知道如何让它安静下来。如果你的 Mac 正在叙述屏幕上的所有内容,以下是最快的解决方法:

如果旁白 (VoiceOver) 正在运行(Mac 会叙述每次点击和每个按钮)

立即按下 Cmd + F5。这是旁白的开关。在带有 Touch Bar 的 MacBook 或更新型号上,你也可以连按三次 Touch ID 按钮。

如果“朗读所选内容”在朗读途中停不下来

再次按下 Option + Esc 停止当前朗读。如果不起作用,请点击选定文本之外的任何地方。

如果你的 Mac 朗读通知或警报

  1. 前往 系统设置 > 辅助功能 > 朗读内容
  2. 关闭 朗读公告
  3. 在那里,如果你不想要悬停阅读,请同时检查并关闭 朗读指针下的项目

完全禁用清单

要完全静止 Mac 上的所有 TTS:

  • 朗读内容:系统设置 > 辅助功能 > 朗读内容 > 关闭所有开关
  • 旁白 (VoiceOver):系统设置 > 辅助功能 > 旁白 > 关闭(或按 Cmd + F5)
  • Siri 语音反馈:系统设置 > Siri > 语音反馈 > 关闭
  • 声音警报:系统设置 > 声音 > 取消勾选“启动时播放声音”并调整警报音量

完成此清单后,除非你明确再次触发语音,否则你的 Mac 将保持静默。

macOS TTS 的瓶颈(以及后续方案)

Apple 的内置声音足以应对两件事:短文档的快速校对和辅助功能。除此之外,你将遇到硬性限制:

  • 无声音自定义:除了单一的语速滑块,你无法调整情感、重音或节奏。声音在朗读笑话和悲剧时用的是同一种语调。
  • 声音选择有限:即使下载了所有优质声音,你也只能在 15-20 个英语选项中选择。如果你在内容创作中需要特定的语气、口音或个性,这个库就太小了。
  • 无声音克隆:无法创建听起来像你或符合特定品牌调性的声音。
  • 音频导出非常原始say 命令只能导出为 AIFF,没有内置的方法来生成带有适当标准化的 MP3、WAV 或播客就绪的音频。
  • 多语言质量下降快:Apple 的优质声音在英语方面很强。切换到泰语、阿拉伯语或葡萄牙语,质量就会退回到机械感十足的水平。
  • 缺乏长文本一致性:语调在 2-3 分钟后会发生漂移,使长时间收听变得疲劳。一段 20 分钟的脚本,第 18 分钟听起来会比第 1 分钟明显变差。

如果你只是用 TTS 来检查邮件中的错别字,这些限制并不重要。但如果你正在制作 YouTube 视频、录制课程或将文字内容转换为受众真正愿意听的音频,这些限制就至关重要了。

从 Mac 校对到专业音频制作

当你的需求超出了内置声音的范畴,工作流的转变非常直接:继续在 Mac 上写作,但通过专门的 AI TTS 平台生成音频。

Fish Audio 弥补了 macOS 留下的空白。以下是切换后的变化:

超过 2,000,000 种声音,而不是 20 种。 Fish Audio 的声音库按语言、口音、语气和使用场景分类。需要一个温暖、自然的美国英语声音来制作教程?直接筛选即可。需要一个干练的日语旁白来制作本地化产品视频?那里也有。选择范围比 Apple 提供的要大 100,000 倍左右。

长脚本下依然稳定的语调。 Fish Audio 的模型架构可以处理长文本中的情感变化和节奏。一段 15 分钟的配音从头到尾都能保持其特色,不会出现 macOS 声音在 2-3 分钟后出现的单调漂移。疑问句听起来像疑问句,重音也会落在该落的地方。

15 秒声音克隆。 想让每一段音频听起来都像你?上传一段 15 秒的样本,Fish Audio 就能创建一个克隆,在你生成的任何文本中承载你的声音特征。Apple 没有任何类似的功能。

13+ 种语言且质量不缩水。 Fish Audio 在其完整语言集中保持了母语级别的发音。在英语中听起来自然的声音,在西班牙语、中文、日语和阿拉伯语中同样保持自然。切换语言时不会出现突然的质量断崖。

生产级音频文件。 生成并下载适用于 YouTube、播客平台、课程平台或任何其他分发渠道的 MP3 或 WAV 文件。无需 Terminal 命令行操作,也无需 AIFF 转 MP3 的复杂流程。

Mac 创作者的工作流

  1. 在 Pages、Google Docs 或任何 Mac 文本编辑器中撰写脚本
  2. 使用 macOS 朗读内容 (Option + Esc) 快速校对,捕捉生硬的措辞
  3. 复制最终文本并将其粘贴到 fish.audio/text-to-speech
  4. 从库中选择一个声音(或使用你的克隆声音)
  5. 调整情感和节奏以匹配你的内容
  6. 生成并下载音频文件
  7. 放入你的项目:Final Cut Pro、Logic Pro、GarageBand、播客编辑器,或任何你使用的工具

这种工作流让 macOS TTS 发挥其优势(免费、即时的校对),并将 Fish Audio 用于真正需要专业音质的部分。

费用说明

Fish Audio 提供免费额度,足以支持使用真实脚本进行测试。付费方案起步价为每月 11 美元,包含 250,000 积分,可生成约 200 分钟(~3小时20分)的 S1 语音,或高达 400 分钟(~6小时40分)的 v1.5 或 v1.6 语音。作为对比,macOS TTS 是免费的,但无法导出可用的音频文件。而聘请真人配音演员制作 15 小时的录制内容可能耗资 3,000 到 15,000 美元。详细的价格说明请点击这里fish-logo

结论

macOS 拥有功能强大的文字转语音 (TTS) 系统,只是隐藏在散乱的设置面板背后。一旦你知道“朗读内容”才是你真正需要的功能,Option + Esc 是快捷键,并且存在优质声音下载,内置的 Mac 文字转语音设置就能很好地处理快速校对和日常收听需求。如果旁白 (VoiceOver) 意外开始叙述整个屏幕,Cmd+F5 就是你的紧急求救键。

但内置声音是为辅助功能和系统反馈设计的,而非内容制作。当你需要一段受众能听超过 2 分钟的音频、需要符合品牌的语音,或需要听起来不像翻译引擎的多语言输出时,Apple 的内置功能就捉襟见肘了。在 Mac 上写作,用“朗读内容”校对,然后用 Fish Audio 进行生产。将你已有的写作工具,与专门为听众打造的文字转语音引擎完美结合。

创造真实感的声音

立即开始生成最高质量的音频。

已有账号? 登录

分享这篇文章


Kyle Cui

Kyle CuiX

Kyle is a Founding Engineer at Fish Audio and UC Berkeley Computer Scientist and Physicist. He builds scalable voice systems and grew Fish into the #1 global AI text-to-speech platform. Outside of startups, he has climbed 1345 trees so far around the Bay Area. Find his irresistibly clouty thoughts on X at @kile_sway.

阅读Kyle Cui的更多内容 >

最新文章

查看全部 >