AI translated简体中文English

如何在 Windows、Mac、iPhone、Android 和 Chromebook 上开启文本转语音

2026年3月5日

如何在 Windows、Mac、iPhone、Android 和 Chromebook 上开启文本转语音

多年来,所有主流操作系统都内置了文本转语音(TTS)功能。Windows 有,macOS 有,你的手机也有。但根据无障碍使用调查,只有不到 12% 的用户曾开启过该功能。这并非因为他们不需要,而是因为这些设置被深埋在大多数人从不打开的菜单中。

该功能可以朗读电子邮件、文章、文档和整个网页。在任何设备上开启它只需不到一分钟。但要获得一个不会让你后悔开启它的语音,则需要更多的考虑。

Windows 10 和 11

Windows 提供了两种独立的 TTS 功能。“讲述人”是完整的屏幕阅读器,会播报屏幕上的所有内容。“大声朗读”是内置在特定 Microsoft 应用中的轻量级工具。

开启讲述人

“讲述人”会朗读所有界面元素:按钮、菜单、通知和正文。要开启它:

  • 按下 Win + Ctrl + Enter 即可立即激活
  • 或者打开 设置 > 辅助功能 > 讲述人 (Windows 11) 或 设置 > 轻松使用 > 讲述人 (Windows 10) 并切换开关

激活后,“讲述人”会立即开始说话。以下是一些值得立即调整的设置:

  • 语音选择:在“讲述人”设置下,点击“选择语音”在已安装的选项之间切换。Microsoft David 和 Microsoft Zira 是默认语音。可以从同一菜单下载更多语音
  • 速度和音调:调整语速滑块。默认速度通常太慢,听起来不舒服。建议从 60-70% 左右开始,然后根据需要微调
  • 详细程度: “讲述人”可以播报每个 UI 细节或仅播报核心内容。在“详细程度”下,将级别降低到 3 或 4 可以减少每个元素后重复的“按钮”和“复选框”等播报

在 Edge 和 Word 中使用大声朗读

如果只想朗读特定内容而不是播报整个界面,Microsoft Edge 和 Word 都包含“大声朗读”功能,其语音效果比“讲述人”更好听。

  • Edge 中:打开任何网页,按下 Ctrl + Shift + U,或点击三点菜单并选择“大声朗读”。顶部会出现一个带有语音和速度控制的播放栏
  • Word 中:前往 审阅 > 大声朗读。该功能将从光标位置开始向前朗读文档

当您连接到互联网时,“大声朗读”会使用 Microsoft 的在线神经语音,这比“讲述人”的离线语音听起来明显更自然。

macOS

macOS 将 TTS 分为两个层级。“朗读内容”按需朗读文本。“VoiceOver”是用于通过语音导航整个界面的完整屏幕阅读器。

开启朗读内容

这是大多数 Mac 用户想要的选项。它会朗读选中的文本或整个屏幕,而不会改变 Mac 的工作方式。

  • 打开 系统设置 > 辅助功能 > 朗读内容
  • 开启 朗读所选内容,即可通过键盘快捷键朗读任何高亮显示的文本
  • 开启 朗读屏幕,即可朗读当前屏幕上的所有可见内容

启用“朗读所选内容”后,选中任何文本并按下 Option + Esc 即可听到朗读。屏幕上会出现一个带有播放、暂停和速度控制的小控制器。

值得配置的项:

  • 系统语音:点击下拉菜单浏览可用语音。标有“Siri Voice”的选项听起来比 Alex 或 Samantha 等传统语音要自然得多
  • 语速:默认设置比较保守。向上滑动直到语音听起来像在交谈而不是迟钝
  • 显示控制器:启用此项可在语音激活时获得持久的播放覆盖层

开启 VoiceOver

VoiceOver 是 macOS 的完整屏幕阅读器。它会播报每个界面元素并更改导航方式。大多数用户不需要 VoiceOver,除非他们依赖它进行辅助功能导航。

  • 按下 Cmd + F5 切换 VoiceOver 开启/关闭
  • 或前往 系统设置 > 辅助功能 > VoiceOver 并切换开关

VoiceOver 有一定的学习曲线。激活后,您将使用键盘快捷键而不是鼠标点击进行导航,系统会播报每个选中的元素。Apple 包含了一个内置教程,可从 VoiceOver 设置面板访问。

iPhone 和 iPad

iOS 提供了多种 TTS 选项,范围从朗读单个高亮的句子到播报整个屏幕。

开启朗读所选内容和朗读屏幕

这两个功能涵盖了大多数使用场景,且不会改变设备的工作方式。

  • 前往 设置 > 辅助功能 > 朗读内容
  • 开启 朗读所选内容:在文本选择菜单中添加一个“朗读”按钮。选中任何文本,点击“朗读”,设备就会将其读出来
  • 开启 朗读屏幕:用两根手指从屏幕顶部向下滑动,即可朗读整个页面。随后会出现一个带有速度、跳过和暂停控制的播放控制器

同一菜单中的其他选项:

  • 高亮显示内容:开启此项可以在说话时实时看到高亮的单词或句子
  • 语音:点击为您的语言下载增强版或高级语音包。高级语音下载量较大,但听起来明显更好
  • 语速:通过滑块调节。建议用一段实际内容而非预览句来进行测试

开启 VoiceOver

iOS 上的 VoiceOver 是一个会更改触摸手势的完整屏幕阅读器。单次点击选中并朗读项目,双击激活它。

  • 前往 设置 > 辅助功能 > VoiceOver 并开启
  • 或者说“嘿 Siri,开启 VoiceOver”
  • 或者如果您在 设置 > 辅助功能 > 辅助功能快捷键 下配置了快捷键,则连按三次侧边按钮

由于 VoiceOver 会改变点击和滑动的工作方式,如果您没有心理准备,可能会感到迷失。手势的变化是故意的,专为依靠音频而非视觉线索导航的用户设计。

Android

Android 的 TTS 功能包括用于全屏阅读的 TalkBack、用于按需阅读的“随选朗读”,以及其他应用可以调用的系统级 TTS 引擎。

开启随选朗读 (Select to Speak)

对于大多数用户来说,“随选朗读”是最好的起点。它会朗读您点击或选中的内容,而不会改变设备的导航方式。

  • 前往 设置 > 辅助功能 > 随选朗读
  • 开启开关
  • 屏幕上会出现一个小图标。点击它,然后点击或拖动您想要朗读的文本

在 Samsung 设备上,路径可能是 设置 > 辅助功能 > 已安装的应用 > 随选朗读

开启 TalkBack

TalkBack 是 Android 对应的 VoiceOver。它会播报每个元素并将触摸行为更改为“先选择后激活”模式。

  • 前往 设置 > 辅助功能 > TalkBack 并开启
  • 或者在 Android 9 及以上版本中,同时按住两个音量键 3 秒钟来切换 TalkBack

与 iOS 上的 VoiceOver 一样,TalkBack 会改变手势:

  • 单次点击:选中并播报项目
  • 双击:激活它
  • 双指滑动:滚动页面
  • 单指左右滑动:移动到上一个或下一个元素

配置 TTS 引擎

Android 允许您选择哪个 TTS 引擎为系统范围内的所有语音输出提供支持。

  • 前往 设置 > 辅助功能 > 文本转语音输出,或在 Samsung 设备上前往 设置 > 常规管理 > 语言和输入 > 文本转语音
  • 选择您首选的引擎。Google 的 TTS 引擎预装在大多数设备上。Samsung 也提供自己的替代方案
  • 点击引擎旁边的齿轮图标下载其他语言包
  • 使用“语速”和“音调”滑块自定义语音效果

Chromebook

ChromeOS 将其 TTS 选项集中在一处,设置比大多数其他平台更简单。

开启随选朗读

  • 前往 设置 > 辅助功能 > 文本转语音
  • 开启 随选朗读
  • 点击系统状态栏中的“随选朗读”图标,然后拖动屏幕上的任何文本即可听到朗读

开启 ChromeVox

ChromeVox 是 ChromeOS 的全屏阅读器。

  • 按下 Ctrl + Alt + Z 切换 ChromeVox 开启/关闭
  • 或者在 设置 > 辅助功能 > 文本转语音 > ChromeVox 下启用它

ChromeVox 激活后会立即开始播报。它使用与 Android 相同的 Google TTS 引擎,并支持相同的语言包和语音选项。

内置语音的优势与不足

您已经开启了 TTS。听了大约 30 秒后,您就会发现规律。

内置语音可以很好地处理简短简单的句子。它们能正确读出常用词,在句号处停顿,并保持一致的速度。对于朗读通知或两行短信,它们表现尚可。

但在处理较长内容时,缺陷就开始显现了。使用任何内置语音大声朗读完整文章,并留意这些迹象:

  • 语气平淡:每个句子听起来都一样。重要的单词没有额外的重音。疑问句的音调不会像人声那样升高
  • 标点符号停顿生硬:分号、冒号和括号短语会让大多数引擎感到困惑。语音要么忽略它们,要么插入奇怪的冗长停顿
  • 发音漂移:技术术语、品牌名称和外来词会被读错。语音一旦认定某种发音,每次遇到该词都会重复同样的错误
  • 听觉疲劳:听了两三分钟后,单调的声音会让精神感到疲惫。这是人们在开启 TTS 后不久又将其关闭的主要原因

这些并不是 bug。内置 TTS 引擎针对小体积、离线使用和通用兼容性进行了优化。音质是妥协的结果。

AI 文本转语音改变了现状

如果您开启 TTS 是希望听文章、通过耳朵校对或制作配音,而内置语音让您打退堂鼓,那么问题不在于功能本身,而在于引擎。

Fish Audio 这样的 AI 语音平台使用经过人类语音训练的神经模型。这些模型不是简单地拼接音节片段,而是从头生成音频,捕捉使语音听起来充满生命力的节奏、重音和色调变化。第一句话就能听出区别。 fish-logo 以下是 Fish Audio 的文本转语音提供而设备级 TTS 所不具备的优势:

  • 风格控制:业界领先的 64 种以上情感和风格控制,涵盖了从喜悦、悲伤到愤怒、平静的几乎所有表达需求
  • 自然语调:引擎会强调重要的词,弱化过渡,并根据句子结构改变节奏。问题听起来像问题,列表听起来像列表。内置 TTS 读所有内容的权重都是一样的
  • 13 种语言及跨语言支持:在英语、中文、西班牙语、日语等语言之间切换,甚至在同一段落内切换,发音也不会崩溃
  • 基于浏览器的流程:无需安装软件。前往 fish.audio/text-to-speech,粘贴文本,选择语音,即可生成可下载的音频

用于保持内容一致性的语音克隆

对于需要在多个项目中使用同一语音的创作者,Fish Audio 的语音克隆仅需 10 秒的参考音频即可创建自定义模型。该模型会学习说话者的音色、节奏和声线特征,然后将这些特征应用到任何新文本中。

实际应用包括:

  • YouTube 和播客制作:使用一致的语音生成旁白,无需录制每个脚本
  • 多语言内容:克隆的语音在生成不同语言的语音时仍能保持其特征
  • 品牌语音一致性:在广告、教程和客户沟通中使用相同的语音,无需为每次更新安排录音室时间

面向开发者的 API 接入

Fish Audio 的 API 开放了完整的 TTS 和语音克隆引擎供程序化调用。响应时间在毫秒级并支持流式传输,这意味着实时语音应用无需缓冲。

定价和计划详情请见 fish.audio/plan。提供免费层级供测试。

结论

在任何平台上开启文本转语音只需不到一分钟。Windows 上是 Win + Ctrl + Enter,Mac 上是 Option + Esc,iPhone 上是双指下滑,Android 上是随选朗读,Chromebook 上是 Ctrl + Alt + Z。该功能已经在您的设备上静候多时了。

更难的问题是您是否愿意一直开启它。内置语音适用于快速阅读和基础辅助,但并非为长时间聆听或内容创作而设计。如果两分钟内那声音就让你想关掉开关,请在彻底放弃这个想法前尝试一下 Fish Audio 的 TTS。预装引擎与现代 AI 语音之间的差距,就是“忍受播报”与“真正享受收听”之间的区别。

常见问题解答

您可以按下快捷键 Win + Ctrl + Enter 来立即开启“讲述人”功能,或者在 Microsoft Edge 浏览器中使用 Ctrl + Shift + U 使用“大声朗读”功能。
内置引擎通常为了体积和兼容性进行了优化,导致在语气重音、断句和复杂单词发音上表现欠佳。使用像 Fish Audio 这样的 AI 平台可以获得更自然的体验。

创造真实感的声音

立即开始生成最高质量的音频。

已有账号? 登录

分享这篇文章


Kyle Cui

Kyle CuiX

Kyle is a Founding Engineer at Fish Audio and UC Berkeley Computer Scientist and Physicist. He builds scalable voice systems and grew Fish into the #1 global AI text-to-speech platform. Outside of startups, he has climbed 1345 trees so far around the Bay Area. Find his irresistibly clouty thoughts on X at @kile_sway.

阅读Kyle Cui的更多内容 >

最新文章

查看全部 >