如何在 Windows、Mac、iPhone、Android 和 Chromebook 上开启文本转语音

2026年3月5日

指南

如何在 Windows、Mac、iPhone、Android 和 Chromebook 上开启文本转语音

多年来，所有主流操作系统都内置了文本转语音（TTS）功能。Windows 有，macOS 有，你的手机也有。但根据无障碍使用调查，只有不到 12% 的用户曾开启过该功能。这并非因为他们不需要，而是因为这些设置被深埋在大多数人从不打开的菜单中。

该功能可以朗读电子邮件、文章、文档和整个网页。在任何设备上开启它只需不到一分钟。但要获得一个不会让你后悔开启它的语音，则需要更多的考虑。

Windows 10 和 11

Windows 提供了两种独立的 TTS 功能。“讲述人”是完整的屏幕阅读器，会播报屏幕上的所有内容。“大声朗读”是内置在特定 Microsoft 应用中的轻量级工具。

开启讲述人

“讲述人”会朗读所有界面元素：按钮、菜单、通知和正文。要开启它：

按下 Win + Ctrl + Enter 即可立即激活
或者打开 设置 > 辅助功能 > 讲述人 (Windows 11) 或 设置 > 轻松使用 > 讲述人 (Windows 10) 并切换开关

激活后，“讲述人”会立即开始说话。以下是一些值得立即调整的设置：

语音选择：在“讲述人”设置下，点击“选择语音”在已安装的选项之间切换。Microsoft David 和 Microsoft Zira 是默认语音。可以从同一菜单下载更多语音
速度和音调：调整语速滑块。默认速度通常太慢，听起来不舒服。建议从 60-70% 左右开始，然后根据需要微调
详细程度： “讲述人”可以播报每个 UI 细节或仅播报核心内容。在“详细程度”下，将级别降低到 3 或 4 可以减少每个元素后重复的“按钮”和“复选框”等播报

在 Edge 和 Word 中使用大声朗读

如果只想朗读特定内容而不是播报整个界面，Microsoft Edge 和 Word 都包含“大声朗读”功能，其语音效果比“讲述人”更好听。

在 Edge 中：打开任何网页，按下 Ctrl + Shift + U，或点击三点菜单并选择“大声朗读”。顶部会出现一个带有语音和速度控制的播放栏
在 Word 中：前往 审阅 > 大声朗读。该功能将从光标位置开始向前朗读文档

当您连接到互联网时，“大声朗读”会使用 Microsoft 的在线神经语音，这比“讲述人”的离线语音听起来明显更自然。

macOS

macOS 将 TTS 分为两个层级。“朗读内容”按需朗读文本。“VoiceOver”是用于通过语音导航整个界面的完整屏幕阅读器。

开启朗读内容

这是大多数 Mac 用户想要的选项。它会朗读选中的文本或整个屏幕，而不会改变 Mac 的工作方式。

打开 系统设置 > 辅助功能 > 朗读内容
开启 朗读所选内容，即可通过键盘快捷键朗读任何高亮显示的文本
开启 朗读屏幕，即可朗读当前屏幕上的所有可见内容

启用“朗读所选内容”后，选中任何文本并按下 Option + Esc 即可听到朗读。屏幕上会出现一个带有播放、暂停和速度控制的小控制器。

值得配置的项：

系统语音：点击下拉菜单浏览可用语音。标有“Siri Voice”的选项听起来比 Alex 或 Samantha 等传统语音要自然得多
语速：默认设置比较保守。向上滑动直到语音听起来像在交谈而不是迟钝
显示控制器：启用此项可在语音激活时获得持久的播放覆盖层

开启 VoiceOver

VoiceOver 是 macOS 的完整屏幕阅读器。它会播报每个界面元素并更改导航方式。大多数用户不需要 VoiceOver，除非他们依赖它进行辅助功能导航。

按下 Cmd + F5 切换 VoiceOver 开启/关闭
或前往 系统设置 > 辅助功能 > VoiceOver 并切换开关

VoiceOver 有一定的学习曲线。激活后，您将使用键盘快捷键而不是鼠标点击进行导航，系统会播报每个选中的元素。Apple 包含了一个内置教程，可从 VoiceOver 设置面板访问。

iPhone 和 iPad

iOS 提供了多种 TTS 选项，范围从朗读单个高亮的句子到播报整个屏幕。

开启朗读所选内容和朗读屏幕

这两个功能涵盖了大多数使用场景，且不会改变设备的工作方式。

前往 设置 > 辅助功能 > 朗读内容
开启 朗读所选内容：在文本选择菜单中添加一个“朗读”按钮。选中任何文本，点击“朗读”，设备就会将其读出来
开启 朗读屏幕：用两根手指从屏幕顶部向下滑动，即可朗读整个页面。随后会出现一个带有速度、跳过和暂停控制的播放控制器

同一菜单中的其他选项：

高亮显示内容：开启此项可以在说话时实时看到高亮的单词或句子
语音：点击为您的语言下载增强版或高级语音包。高级语音下载量较大，但听起来明显更好
语速：通过滑块调节。建议用一段实际内容而非预览句来进行测试

开启 VoiceOver

iOS 上的 VoiceOver 是一个会更改触摸手势的完整屏幕阅读器。单次点击选中并朗读项目，双击激活它。

前往 设置 > 辅助功能 > VoiceOver 并开启
或者说“嘿 Siri，开启 VoiceOver”
或者如果您在 设置 > 辅助功能 > 辅助功能快捷键 下配置了快捷键，则连按三次侧边按钮

由于 VoiceOver 会改变点击和滑动的工作方式，如果您没有心理准备，可能会感到迷失。手势的变化是故意的，专为依靠音频而非视觉线索导航的用户设计。

Android

Android 的 TTS 功能包括用于全屏阅读的 TalkBack、用于按需阅读的“随选朗读”，以及其他应用可以调用的系统级 TTS 引擎。

开启随选朗读 (Select to Speak)

对于大多数用户来说，“随选朗读”是最好的起点。它会朗读您点击或选中的内容，而不会改变设备的导航方式。

前往 设置 > 辅助功能 > 随选朗读
开启开关
屏幕上会出现一个小图标。点击它，然后点击或拖动您想要朗读的文本

在 Samsung 设备上，路径可能是 设置 > 辅助功能 > 已安装的应用 > 随选朗读。

开启 TalkBack

TalkBack 是 Android 对应的 VoiceOver。它会播报每个元素并将触摸行为更改为“先选择后激活”模式。

前往 设置 > 辅助功能 > TalkBack 并开启
或者在 Android 9 及以上版本中，同时按住两个音量键 3 秒钟来切换 TalkBack

与 iOS 上的 VoiceOver 一样，TalkBack 会改变手势：

单次点击：选中并播报项目
双击：激活它
双指滑动：滚动页面
单指左右滑动：移动到上一个或下一个元素

配置 TTS 引擎

Android 允许您选择哪个 TTS 引擎为系统范围内的所有语音输出提供支持。

前往 设置 > 辅助功能 > 文本转语音输出，或在 Samsung 设备上前往 设置 > 常规管理 > 语言和输入 > 文本转语音
选择您首选的引擎。Google 的 TTS 引擎预装在大多数设备上。Samsung 也提供自己的替代方案
点击引擎旁边的齿轮图标下载其他语言包
使用“语速”和“音调”滑块自定义语音效果

Chromebook

ChromeOS 将其 TTS 选项集中在一处，设置比大多数其他平台更简单。

开启随选朗读

前往 设置 > 辅助功能 > 文本转语音
开启 随选朗读
点击系统状态栏中的“随选朗读”图标，然后拖动屏幕上的任何文本即可听到朗读

开启 ChromeVox

ChromeVox 是 ChromeOS 的全屏阅读器。

按下 Ctrl + Alt + Z 切换 ChromeVox 开启/关闭
或者在 设置 > 辅助功能 > 文本转语音 > ChromeVox 下启用它

ChromeVox 激活后会立即开始播报。它使用与 Android 相同的 Google TTS 引擎，并支持相同的语言包和语音选项。

内置语音的优势与不足

您已经开启了 TTS。听了大约 30 秒后，您就会发现规律。

内置语音可以很好地处理简短简单的句子。它们能正确读出常用词，在句号处停顿，并保持一致的速度。对于朗读通知或两行短信，它们表现尚可。

但在处理较长内容时，缺陷就开始显现了。使用任何内置语音大声朗读完整文章，并留意这些迹象：

语气平淡：每个句子听起来都一样。重要的单词没有额外的重音。疑问句的音调不会像人声那样升高
标点符号停顿生硬：分号、冒号和括号短语会让大多数引擎感到困惑。语音要么忽略它们，要么插入奇怪的冗长停顿
发音漂移：技术术语、品牌名称和外来词会被读错。语音一旦认定某种发音，每次遇到该词都会重复同样的错误
听觉疲劳：听了两三分钟后，单调的声音会让精神感到疲惫。这是人们在开启 TTS 后不久又将其关闭的主要原因

这些并不是 bug。内置 TTS 引擎针对小体积、离线使用和通用兼容性进行了优化。音质是妥协的结果。

AI 文本转语音改变了现状

如果您开启 TTS 是希望听文章、通过耳朵校对或制作配音，而内置语音让您打退堂鼓，那么问题不在于功能本身，而在于引擎。

像 Fish Audio 这样的 AI 语音平台使用经过人类语音训练的神经模型。这些模型不是简单地拼接音节片段，而是从头生成音频，捕捉使语音听起来充满生命力的节奏、重音和色调变化。第一句话就能听出区别。以下是 Fish Audio 的文本转语音提供而设备级 TTS 所不具备的优势：

风格控制：业界领先的 64 种以上情感和风格控制，涵盖了从喜悦、悲伤到愤怒、平静的几乎所有表达需求
自然语调：引擎会强调重要的词，弱化过渡，并根据句子结构改变节奏。问题听起来像问题，列表听起来像列表。内置 TTS 读所有内容的权重都是一样的
13 种语言及跨语言支持：在英语、中文、西班牙语、日语等语言之间切换，甚至在同一段落内切换，发音也不会崩溃
基于浏览器的流程：无需安装软件。前往 fish.audio/text-to-speech，粘贴文本，选择语音，即可生成可下载的音频

用于保持内容一致性的语音克隆

对于需要在多个项目中使用同一语音的创作者，Fish Audio 的语音克隆仅需 10 秒的参考音频即可创建自定义模型。该模型会学习说话者的音色、节奏和声线特征，然后将这些特征应用到任何新文本中。

实际应用包括：

YouTube 和播客制作：使用一致的语音生成旁白，无需录制每个脚本
多语言内容：克隆的语音在生成不同语言的语音时仍能保持其特征
品牌语音一致性：在广告、教程和客户沟通中使用相同的语音，无需为每次更新安排录音室时间

面向开发者的 API 接入

Fish Audio 的 API 开放了完整的 TTS 和语音克隆引擎供程序化调用。响应时间在毫秒级并支持流式传输，这意味着实时语音应用无需缓冲。

定价和计划详情请见 fish.audio/plan。提供免费层级供测试。

结论

在任何平台上开启文本转语音只需不到一分钟。Windows 上是 Win + Ctrl + Enter，Mac 上是 Option + Esc，iPhone 上是双指下滑，Android 上是随选朗读，Chromebook 上是 Ctrl + Alt + Z。该功能已经在您的设备上静候多时了。

更难的问题是您是否愿意一直开启它。内置语音适用于快速阅读和基础辅助，但并非为长时间聆听或内容创作而设计。如果两分钟内那声音就让你想关掉开关，请在彻底放弃这个想法前尝试一下 Fish Audio 的 TTS。预装引擎与现代 AI 语音之间的差距，就是“忍受播报”与“真正享受收听”之间的区别。

常见问题解答

您可以按下快捷键 Win + Ctrl + Enter 来立即开启“讲述人”功能，或者在 Microsoft Edge 浏览器中使用 Ctrl + Shift + U 使用“大声朗读”功能。

内置引擎通常为了体积和兼容性进行了优化，导致在语气重音、断句和复杂单词发音上表现欠佳。使用像 Fish Audio 这样的 AI 平台可以获得更自然的体验。

创造真实感的声音

立即开始生成最高质量的音频。

免费注册

已有账号？登录

分享这篇文章

Kyle Cui

Kyle is a Founding Engineer at Fish Audio and UC Berkeley Computer Scientist and Physicist. He builds scalable voice systems and grew Fish into the #1 global AI text-to-speech platform. Outside of startups, he has climbed 1345 trees so far around the Bay Area. Find his irresistibly clouty thoughts on X at @kile_sway.

阅读Kyle Cui的更多内容 >

如何在 Windows、Mac、iPhone、Android 和 Chromebook 上开启文本转语音

Windows 10 和 11

开启讲述人

在 Edge 和 Word 中使用大声朗读

macOS

开启朗读内容

开启 VoiceOver

iPhone 和 iPad

开启朗读所选内容和朗读屏幕

开启 VoiceOver

Android

开启随选朗读 (Select to Speak)

开启 TalkBack

配置 TTS 引擎

Chromebook

开启随选朗读

开启 ChromeVox

内置语音的优势与不足

AI 文本转语音改变了现状

用于保持内容一致性的语音克隆

面向开发者的 API 接入

结论

常见问题解答

创造真实感的声音

最新文章

如何将提示词转化为完整的歌曲：文字生成音乐指南

2026 年顶尖在线 AI Brainrot 视频生成器

适合 YouTube 创作者的 5 款最佳 AI 音乐生成器（2026 年评测）

如何将提示词转化为完整的歌曲：文字生成音乐指南

2026 年顶尖在线 AI Brainrot 视频生成器

适合 YouTube 创作者的 5 款最佳 AI 音乐生成器（2026 年评测）