如何在 Windows、Mac、iPhone、Android 和 Chromebook 上开启文本转语音
2026年3月5日
多年来,所有主流操作系统都内置了文本转语音(TTS)功能。Windows 有,macOS 有,你的手机也有。但根据无障碍使用调查,只有不到 12% 的用户曾开启过该功能。这并非因为他们不需要,而是因为这些设置被深埋在大多数人从不打开的菜单中。
该功能可以朗读电子邮件、文章、文档和整个网页。在任何设备上开启它只需不到一分钟。但要获得一个不会让你后悔开启它的语音,则需要更多的考虑。
Windows 10 和 11
Windows 提供了两种独立的 TTS 功能。“讲述人”是完整的屏幕阅读器,会播报屏幕上的所有内容。“大声朗读”是内置在特定 Microsoft 应用中的轻量级工具。
开启讲述人
“讲述人”会朗读所有界面元素:按钮、菜单、通知和正文。要开启它:
- 按下 Win + Ctrl + Enter 即可立即激活
- 或者打开 设置 > 辅助功能 > 讲述人 (Windows 11) 或 设置 > 轻松使用 > 讲述人 (Windows 10) 并切换开关
激活后,“讲述人”会立即开始说话。以下是一些值得立即调整的设置:
- 语音选择:在“讲述人”设置下,点击“选择语音”在已安装的选项之间切换。Microsoft David 和 Microsoft Zira 是默认语音。可以从同一菜单下载更多语音
- 速度和音调:调整语速滑块。默认速度通常太慢,听起来不舒服。建议从 60-70% 左右开始,然后根据需要微调
- 详细程度: “讲述人”可以播报每个 UI 细节或仅播报核心内容。在“详细程度”下,将级别降低到 3 或 4 可以减少每个元素后重复的“按钮”和“复选框”等播报
在 Edge 和 Word 中使用大声朗读
如果只想朗读特定内容而不是播报整个界面,Microsoft Edge 和 Word 都包含“大声朗读”功能,其语音效果比“讲述人”更好听。
- 在 Edge 中:打开任何网页,按下 Ctrl + Shift + U,或点击三点菜单并选择“大声朗读”。顶部会出现一个带有语音和速度控制的播放栏
- 在 Word 中:前往 审阅 > 大声朗读。该功能将从光标位置开始向前朗读文档
当您连接到互联网时,“大声朗读”会使用 Microsoft 的在线神经语音,这比“讲述人”的离线语音听起来明显更自然。
macOS
macOS 将 TTS 分为两个层级。“朗读内容”按需朗读文本。“VoiceOver”是用于通过语音导航整个界面的完整屏幕阅读器。
开启朗读内容
这是大多数 Mac 用户想要的选项。它会朗读选中的文本或整个屏幕,而不会改变 Mac 的工作方式。
- 打开 系统设置 > 辅助功能 > 朗读内容
- 开启 朗读所选内容,即可通过键盘快捷键朗读任何高亮显示的文本
- 开启 朗读屏幕,即可朗读当前屏幕上的所有可见内容
启用“朗读所选内容”后,选中任何文本并按下 Option + Esc 即可听到朗读。屏幕上会出现一个带有播放、暂停和速度控制的小控制器。
值得配置的项:
- 系统语音:点击下拉菜单浏览可用语音。标有“Siri Voice”的选项听起来比 Alex 或 Samantha 等传统语音要自然得多
- 语速:默认设置比较保守。向上滑动直到语音听起来像在交谈而不是迟钝
- 显示控制器:启用此项可在语音激活时获得持久的播放覆盖层
开启 VoiceOver
VoiceOver 是 macOS 的完整屏幕阅读器。它会播报每个界面元素并更改导航方式。大多数用户不需要 VoiceOver,除非他们依赖它进行辅助功能导航。
- 按下 Cmd + F5 切换 VoiceOver 开启/关闭
- 或前往 系统设置 > 辅助功能 > VoiceOver 并切换开关
VoiceOver 有一定的学习曲线。激活后,您将使用键盘快捷键而不是鼠标点击进行导航,系统会播报每个选中的元素。Apple 包含了一个内置教程,可从 VoiceOver 设置面板访问。
iPhone 和 iPad
iOS 提供了多种 TTS 选项,范围从朗读单个高亮的句子到播报整个屏幕。
开启朗读所选内容和朗读屏幕
这两个功能涵盖了大多数使用场景,且不会改变设备的工作方式。
- 前往 设置 > 辅助功能 > 朗读内容
- 开启 朗读所选内容:在文本选择菜单中添加一个“朗读”按钮。选中任何文本,点击“朗读”,设备就会将其读出来
- 开启 朗读屏幕:用两根手指从屏幕顶部向下滑动,即可朗读整个页面。随后会出现一个带有速度、跳过和暂停控制的播放控制器
同一菜单中的其他选项:
- 高亮显示内容:开启此项可以在说话时实时看到高亮的单词或句子
- 语音:点击为您的语言下载增强版或高级语音包。高级语音下载量较大,但听起来明显更好
- 语速:通过滑块调节。建议用一段实际内容而非预览句来进行测试
开启 VoiceOver
iOS 上的 VoiceOver 是一个会更改触摸手势的完整屏幕阅读器。单次点击选中并朗读项目,双击激活它。
- 前往 设置 > 辅助功能 > VoiceOver 并开启
- 或者说“嘿 Siri,开启 VoiceOver”
- 或者如果您在 设置 > 辅助功能 > 辅助功能快捷键 下配置了快捷键,则连按三次侧边按钮
由于 VoiceOver 会改变点击和滑动的工作方式,如果您没有心理准备,可能会感到迷失。手势的变化是故意的,专为依靠音频而非视觉线索导航的用户设计。
Android
Android 的 TTS 功能包括用于全屏阅读的 TalkBack、用于按需阅读的“随选朗读”,以及其他应用可以调用的系统级 TTS 引擎。
开启随选朗读 (Select to Speak)
对于大多数用户来说,“随选朗读”是最好的起点。它会朗读您点击或选中的内容,而不会改变设备的导航方式。
- 前往 设置 > 辅助功能 > 随选朗读
- 开启开关
- 屏幕上会出现一个小图标。点击它,然后点击或拖动您想要朗读的文本
在 Samsung 设备上,路径可能是 设置 > 辅助功能 > 已安装的应用 > 随选朗读。
开启 TalkBack
TalkBack 是 Android 对应的 VoiceOver。它会播报每个元素并将触摸行为更改为“先选择后激活”模式。
- 前往 设置 > 辅助功能 > TalkBack 并开启
- 或者在 Android 9 及以上版本中,同时按住两个音量键 3 秒钟来切换 TalkBack
与 iOS 上的 VoiceOver 一样,TalkBack 会改变手势:
- 单次点击:选中并播报项目
- 双击:激活它
- 双指滑动:滚动页面
- 单指左右滑动:移动到上一个或下一个元素
配置 TTS 引擎
Android 允许您选择哪个 TTS 引擎为系统范围内的所有语音输出提供支持。
- 前往 设置 > 辅助功能 > 文本转语音输出,或在 Samsung 设备上前往 设置 > 常规管理 > 语言和输入 > 文本转语音
- 选择您首选的引擎。Google 的 TTS 引擎预装在大多数设备上。Samsung 也提供自己的替代方案
- 点击引擎旁边的齿轮图标下载其他语言包
- 使用“语速”和“音调”滑块自定义语音效果
Chromebook
ChromeOS 将其 TTS 选项集中在一处,设置比大多数其他平台更简单。
开启随选朗读
- 前往 设置 > 辅助功能 > 文本转语音
- 开启 随选朗读
- 点击系统状态栏中的“随选朗读”图标,然后拖动屏幕上的任何文本即可听到朗读
开启 ChromeVox
ChromeVox 是 ChromeOS 的全屏阅读器。
- 按下 Ctrl + Alt + Z 切换 ChromeVox 开启/关闭
- 或者在 设置 > 辅助功能 > 文本转语音 > ChromeVox 下启用它
ChromeVox 激活后会立即开始播报。它使用与 Android 相同的 Google TTS 引擎,并支持相同的语言包和语音选项。
内置语音的优势与不足
您已经开启了 TTS。听了大约 30 秒后,您就会发现规律。
内置语音可以很好地处理简短简单的句子。它们能正确读出常用词,在句号处停顿,并保持一致的速度。对于朗读通知或两行短信,它们表现尚可。
但在处理较长内容时,缺陷就开始显现了。使用任何内置语音大声朗读完整文章,并留意这些迹象:
- 语气平淡:每个句子听起来都一样。重要的单词没有额外的重音。疑问句的音调不会像人声那样升高
- 标点符号停顿生硬:分号、冒号和括号短语会让大多数引擎感到困惑。语音要么忽略它们,要么插入奇怪的冗长停顿
- 发音漂移:技术术语、品牌名称和外来词会被读错。语音一旦认定某种发音,每次遇到该词都会重复同样的错误
- 听觉疲劳:听了两三分钟后,单调的声音会让精神感到疲惫。这是人们在开启 TTS 后不久又将其关闭的主要原因
这些并不是 bug。内置 TTS 引擎针对小体积、离线使用和通用兼容性进行了优化。音质是妥协的结果。
AI 文本转语音改变了现状
如果您开启 TTS 是希望听文章、通过耳朵校对或制作配音,而内置语音让您打退堂鼓,那么问题不在于功能本身,而在于引擎。
像 Fish Audio 这样的 AI 语音平台使用经过人类语音训练的神经模型。这些模型不是简单地拼接音节片段,而是从头生成音频,捕捉使语音听起来充满生命力的节奏、重音和色调变化。第一句话就能听出区别。
以下是 Fish Audio 的文本转语音提供而设备级 TTS 所不具备的优势:
- 风格控制:业界领先的 64 种以上情感和风格控制,涵盖了从喜悦、悲伤到愤怒、平静的几乎所有表达需求
- 自然语调:引擎会强调重要的词,弱化过渡,并根据句子结构改变节奏。问题听起来像问题,列表听起来像列表。内置 TTS 读所有内容的权重都是一样的
- 13 种语言及跨语言支持:在英语、中文、西班牙语、日语等语言之间切换,甚至在同一段落内切换,发音也不会崩溃
- 基于浏览器的流程:无需安装软件。前往 fish.audio/text-to-speech,粘贴文本,选择语音,即可生成可下载的音频
用于保持内容一致性的语音克隆
对于需要在多个项目中使用同一语音的创作者,Fish Audio 的语音克隆仅需 10 秒的参考音频即可创建自定义模型。该模型会学习说话者的音色、节奏和声线特征,然后将这些特征应用到任何新文本中。
实际应用包括:
- YouTube 和播客制作:使用一致的语音生成旁白,无需录制每个脚本
- 多语言内容:克隆的语音在生成不同语言的语音时仍能保持其特征
- 品牌语音一致性:在广告、教程和客户沟通中使用相同的语音,无需为每次更新安排录音室时间
面向开发者的 API 接入
Fish Audio 的 API 开放了完整的 TTS 和语音克隆引擎供程序化调用。响应时间在毫秒级并支持流式传输,这意味着实时语音应用无需缓冲。
定价和计划详情请见 fish.audio/plan。提供免费层级供测试。
结论
在任何平台上开启文本转语音只需不到一分钟。Windows 上是 Win + Ctrl + Enter,Mac 上是 Option + Esc,iPhone 上是双指下滑,Android 上是随选朗读,Chromebook 上是 Ctrl + Alt + Z。该功能已经在您的设备上静候多时了。
更难的问题是您是否愿意一直开启它。内置语音适用于快速阅读和基础辅助,但并非为长时间聆听或内容创作而设计。如果两分钟内那声音就让你想关掉开关,请在彻底放弃这个想法前尝试一下 Fish Audio 的 TTS。预装引擎与现代 AI 语音之间的差距,就是“忍受播报”与“真正享受收听”之间的区别。
