iPhone 文本转语音完整教程:如何开启、使用与关闭

2026年2月28日

iPhone 文本转语音完整教程:如何开启、使用与关闭

你在地铁上,手里拿着教授发来的 12 页 PDF,距离上课还有 20 分钟。你叫 Siri “读一下这个文档”。Siri 却弹出了网页搜索。你尝试说 “嘿 Siri,读一下我的屏幕”。Siri 告诉你她做不到。你打开 PDF,寻找播放按钮,却一无所获。其实,你的手机里隐藏着一个可以将文本朗读出来的功能,但 Apple 将它埋在了你从未打开过的“辅助功能”设置的三级菜单深处,这就是内置的 iPhone 文本转语音 (iPhone TTS) 系统。

这种情况每天在全球 12 亿活跃的 iPhone 用户中上演无数次。iOS 其实拥有一个非常出色的内置文本转语音 (TTS) 引擎,具备自然的人声、逐词高亮和速度控制功能。但 Apple 将其设计为一项辅助功能,而非内容消费工具,这导致它极难被发现。一旦你知道了路径,设置只需 2 分钟。iPhone 文本转语音的音质会让你感到惊喜。

你的 iPhone 有两套 TTS 系统,Siri 并不在其中。

首先要澄清一个误区:Siri 可以对你说话,但她无法通过 iPhone 文本转语音 (iPhone TTS) 为你朗读。Siri 使用她自己的语音模型生成回复,但她没有一个能在各种 App 中稳定运行的“朗读此文本”或“朗读此屏幕”命令。

iOS 内置的实际 TTS 系统是:

系统功能查找路径使用场景
朗读所选项朗读高亮的文本设置 > 辅助功能 > 朗读内容阅读特定段落、校对
朗读屏幕朗读整个可见屏幕设置 > 辅助功能 > 朗读内容文章、邮件、完整文档
旁白 (VoiceOver)全屏阅读器(朗读每个元素)设置 > 辅助功能 > 旁白仅限视障辅助

大多数人需要的其实是 “朗读所选项”或“朗读屏幕”。VoiceOver(旁白)是为视障用户设计的完整导航系统,它会朗读每一次点击、按钮和手势。如果你只想听文章而开启了 VoiceOver,你的手机会变得近乎无法使用,直到你搞清楚如何关闭它(开启后需要不同的点击模式)。

除非你确实需要,否则请勿触碰 VoiceOver。

开启文本转语音:2 分钟快速设置

iOS 17 和 iOS 18 操作步骤

  1. 打开 设置
  2. 点击 辅助功能
  3. 点击 朗读内容
  4. 开启 朗读所选项(朗读高亮文本)
  5. 开启 朗读屏幕(朗读整个屏幕)
  6. 调整 语速 滑块。默认约为每分钟 180 个词。大多数人觉得 200-220 WPM 听起来比较舒服。建议自行尝试。
  7. 点击 声音 更改默认声音(详见下文)

就这样,两项功能都已激活。

如何触发功能

朗读所选项:在任何 App 中,长按选择文本。在选区上方的弹出菜单中,点击 朗读。(如果没有看到“朗读”,请点击弹出菜单右侧的箭头查找。)

朗读屏幕:用两根手指从屏幕顶部向下滑动。会出现一个带有播放/暂停、快进、快退、语速控制和关闭按钮的小型音频控制器。该控制器会悬浮在内容之上,直到你将其关闭。

双指下滑手势是大多数人从未发现的技巧。它能将你的 iPhone 变成一个可以播放屏幕上任何文本的播客播放器。

挑选一个听起来不像 2012 年机器人的声音

Apple 提供了几十种语言的声音,默认选项与高级选项之间的质量差距非常大。大多数用户从未更改过默认设置,这意味着他们听的是为了减小文件大小而优化的精简版声音,而非自然的人声。

如何下载更优质的声音

  1. 前往 设置 > 辅助功能 > 朗读内容 > 声音
  2. 点击你的语言(例如:中文)
  3. 你会看到声音名称列表。带有下载图标的声音尚未安装。
  4. 点击声音名称进行试听。点击下载图标进行安装。
  5. 高级声音被标记为“增强版”或“高级版”。它们的大小通常在 100 MB 到 500 MB 之间。

哪些声音值得下载

对于英语,截至 iOS 18,Apple 最好的选择是:

  • Zoe (Premium):温暖、口语化的美式英语。是 Apple 最接近自然朗读者的声音。
  • Evan (Premium):清晰、略微正式的美式英语。非常适合新闻文章和专业内容。
  • Siri Voice 2 / Voice 4:较新的 Siri 声音基于神经网络,听起来比旧选项更自然,但在长段落中仍有明显的“数码感”。

对于其他语言,质量参差不齐。日语、普通话、西班牙语和法语都有不错的高级声音。较小的语言通常只有听起来明显机械化的精简版声音。

总结:花 5 分钟下载 2 到 3 个高级声音并进行对比。默认精简版声音与高级版声音的区别,就是“勉强能听”与“真正享受”的区别。

在各种 iPhone App 中使用文本转语音

开启“朗读内容”后,它几乎适用于手机上的所有 App。但“适用”在不同场景下有不同的表现。

Safari

在任何文章页面上双指下滑即可激活“朗读屏幕”。朗读者会从可见内容的顶部开始。为了获得最佳体验,请先点击地址栏中的 阅读器模式 图标。阅读器模式会过滤掉广告、导航和侧边栏内容,这样语音就只会朗读文章正文,而不是念出“菜单、主页、关于、订阅、Cookie 横幅”。

仅阅读器模式这一个技巧就能减少一半的干扰。

备忘录

“朗读所选项”适用于单条备忘录。选择文本,点击朗读。“朗读屏幕”则朗读整个备忘录。这对于通过听觉检查自己的写作非常有用。如果一句话读出来感觉不对劲,通常读起来也会觉得别扭。

邮件

选择邮件正文并点击朗读,或者双指下滑阅读整封邮件。长邮件链也可以,但可能会让人困惑,因为语音会读完整个邮件链,包括引用的回复。选择最新的消息进行朗读效果更好。

图书 (Apple Books)

Apple Books 有自己内置的文本转语音功能,独立于“朗读内容”。打开一本书,点击页面,点击 Aa 菜单,寻找“收听”或音频选项(可用性因书籍和 iOS 版本而异)。其质量通常与你的“朗读内容”声音设置相匹配。

Kindle

通过双指下滑,“朗读屏幕”可以在 Kindle App 中运行。语音会朗读当前可见的页面。读完后你需要手动翻到下一页,这在长时间阅读时略显笨拙。Kindle 暂时没有与“朗读内容”实现自动翻页集成。

PDF(在“文件”应用中)

在“文件”应用中打开 PDF,双指下滑。语音会朗读 PDF 中可选择的文本。没有 OCR 文字层的扫描版 PDF 无法使用。如果你的 PDF 没有声音,它可能是一张扫描图片而非文本文档,因此 iOS 文本转语音不支持它。

第三方 App

“朗读所选项”在大多数显示文本的 App 中都能工作:Notion、Google Docs、Slack、WhatsApp、Reddit、Twitter/X。双指下滑(朗读屏幕)在第三方 App 中不太稳定,因为它会朗读所有可见的 UI 元素而不仅仅是内容。手动选择文本进行“朗读所选项”通常更精确。

让 iPhone TTS 真正好用的 4 个设置

默认的“朗读内容”设置可以用,但通过以下四个快速调整,体验会大幅提升。

1. 朗读时高亮显示内容。 前往 设置 > 辅助功能 > 朗读内容,开启 高亮显示内容。选择高亮字、句子或两者。这能让你在收听时视觉上跟上进度,在校对自己的写作时非常有用。

2. 正确设置语速。 默认语速对大多数人来说太慢了。将其调高至 1.3-1.5 倍(约 220-270 WPM)。你也可以在“朗读屏幕”期间使用悬浮控制器实时调整语速。

3. 添加发音修正。 前往 设置 > 辅助功能 > 朗读内容 > 发音。你可以为语音经常读错的词添加自定义发音规则,例如品牌名称、技术术语或人名。每个条目都可以让你输入单词,然后拼写出其正确的语音发音。

4. 创建“背面轻点”快捷方式。 前往 设置 > 辅助功能 > 触控 > 背面轻点。将“轻点两下”或“轻点三下”设置为触发“朗读屏幕”。现在你只需敲击 iPhone 背面两次即可开始 TTS,而无需使用单手操作不太方便的双指下滑手势。

“背面轻点”快捷方式是一个小改动,但它让这项功能感觉更像是为日常使用设计的,而不是埋在辅助功能菜单里的工具。

如何关闭文本转语音(以及如果你误开启了“旁白”该怎么办)

停止当前朗读

点击悬浮音频控制器上的 X 按钮,或再次使用双指下滑手势来关闭“朗读屏幕”。对于“朗读所选项”,只需点击屏幕其他位置即可。

完全禁用“朗读内容”

  1. 前往 设置 > 辅助功能 > 朗读内容
  2. 关闭 朗读所选项
  3. 关闭 朗读屏幕

紧急情况:开启了“旁白” (VoiceOver),手机正在朗读一切

这是最令人慌张的情况。你不小心开启了 VoiceOver,现在每一次点击都会被朗读,正常的点击选择手势也不再起作用。VoiceOver 改变了整个交互模式:单击是朗读项目;双击是激活它。

最快修复方法: 告诉 Siri,“关闭旁白”。即使你无法操作屏幕,这招也管用。

如果 Siri 不可用:

  1. 单击 设置(VoiceOver 会读出它)
  2. 双击 设置(将其打开)
  3. 单击 辅助功能,然后双击打开
  4. 单击 旁白,然后双击打开
  5. 单击旁白开关,然后双击将其关闭

如果你有 Mac: 连接 iPhone,打开 Finder(或旧版 macOS 上的 iTunes),然后从那里管理辅助功能设置。

记住关键点:在开启 VoiceOver 的情况下,所有操作都是单击选择,双击激活。一旦掌握了这个规律,你就可以导航到开关处。但问 Siri 显然更快。

局限性:iPhone TTS 做不到的事

作为一项系统功能,iPhone 内置的 TTS 令人印象深刻,但它也有明显的局限:

  • 无法导出音频。 语音只能通过扬声器或耳机朗读,无法将音频保存为 MP3、WAV 或任何可用于视频、播客或演示文稿的文件。
  • 没有声音克隆。 你无法创建一个听起来像你或符合特定品牌形象的声音。
  • 单一声音,单一个性。 你无法为故事中的不同角色、访谈中的不同发言者或文档的不同部分分配不同的声音。
  • 情感和节奏控制有限。 唯一的调节方式就是语速滑块。你无法在特定句子上加强语气、插入戏剧性的停顿或在段落中间切换情绪。
  • 多语言质量差距。 英语的高级声音很好,但许多其他语言只有听起来平淡且机械的精简版声音。
  • 长内容韵律漂移。 即使是高级声音,在连续阅读 5-10 分钟后也会开始变得单调。节奏变得平缓,重音消失,听起来容易产生疲劳感。

对于个人用途(通勤时听文章、课前校对笔记),这些限制并不重要。但对于任何需要分享给受众的音频,这些限制就非常致命。

当你的 iPhone 需要更好的语音引擎时

一旦你需要将音频保存为文件、需要听起来像真实播音员的声音,或者需要在切换语言时保持高质量,你就已经跨过了“iPhone 功能”的界限,进入了“制作工具”的范畴。

Fish Audio 弥补了 iOS 留下的所有空白,并且可以直接在 iPhone 的浏览器中运行。

2,000,000 多种声音供你浏览。 Fish Audio 的 TTS 库 允许你按语言、口音、性别和语调进行筛选。需要为冥想 App 寻找冷静、温暖的叙述者?需要为 YouTube Short 寻找充满活力的声音?库中按实际使用场景分类,而不只是按字母顺序列出。 fish-logo 可以直接使用的音频文件。 直接在 iPhone 上生成并下载 MP3 或 WAV 文件。将它们导入 iMovie、播客编辑器、课程平台,或根据需要分享。无需再用录屏这种笨办法。

15 秒在 iPhone 上完成声音克隆。 使用 iPhone 的麦克风录制 15 秒样本,上传到 Fish Audio 的声音克隆工具,之后你转换的每一段文字听起来都像你。在“语音备忘录”中录音、上传,即可完成。

8 种语言,质量始终如一。 Fish Audio 的模型在全语言集中保持自然的韵律。一个在英语中听起来像真人的声音,在日语、阿拉伯语、葡萄牙语和普通话中同样像真人。切换语言时不会出现质量断崖。

韵律持久,20 分钟不走样。 iOS TTS 与专业 AI 引擎的区别在长内容上最为明显。Fish Audio 的模型在长脚本中依然能保持情感变化、节奏和重音。一段 15 分钟的旁白,在第 14 分钟听起来和第 1 分钟一样自然。

移动端工作流程

  1. 在 iPhone 上编写或复制文本(备忘录、Google Docs、邮件等任何地方)
  2. 打开 Safari 浏览器并访问 fish.audio/text-to-speech
  3. 粘贴文本
  4. 选择声音,调整设置
  5. 生成并下载音频文件
  6. 随处使用:iMovie、播客 App、通过 AirDrop 分享、上传到课程平台

Fish Audio 提供免费层级供实际测试。付费计划起步价为每月 11 美元,可制作约 15 小时的成品音频。定价页面 有详细说明。将其与 iOS 的免费功能(仅限收听、无法导出、声音有限)以及真人配音成本(每分钟成品 100-500 美元)相比,性价比不言而喻。

结论

你的 iPhone 拥有一套强大的文本转语音系统,只是 Apple 将其藏在了大多数人从不打开的“辅助功能”设置中。通过两个开关(朗读所选项和朗读屏幕)、下载高级声音以及设置“背面轻点”快捷方式,它就能成为你在通勤时听文章、校对草稿和吸收内容的利器。如果“旁白”误导了你的操作,记得叫 Siri 把它关掉。

但 iOS TTS 的设计初衷是即时朗读,而非生成音频。一旦你需要可分享的文件、匹配品牌的声线或超过 5 分钟的高质量音频,Fish Audio 就能在 Apple 止步的地方为你助力。你在手机上编写的文本,可以转化为听起来经过专业录制的音频。从免费层级开始,测试一下你现在正在阅读的内容吧。

常见问题解答

前往“设置” > “辅助功能” > “朗读内容”,开启“朗读所选项”或“朗读屏幕”。
Siri 主要用于语音交互。系统级的朗读功能是由“朗读屏幕”负责的,通常通过双指从屏幕顶部下滑来触发。
您可以在“朗读内容” > “声音”中,选择您的语言并下载标记为“增强版”或“高级版”的声音,这些声音比默认版本要自然得多。

创造真实感的声音

立即开始生成最高质量的音频。

已有账号? 登录

分享这篇文章


Kyle Cui

Kyle CuiX

Kyle is a Founding Engineer at Fish Audio and UC Berkeley Computer Scientist and Physicist. He builds scalable voice systems and grew Fish into the #1 global AI text-to-speech platform. Outside of startups, he has climbed 1345 trees so far around the Bay Area. Find his irresistibly clouty thoughts on X at @kile_sway.

阅读Kyle Cui的更多内容 >

最新文章

查看全部 >