Macでのテキスト読み上げ（TTS）完全ガイド：設定、活用法、無効化の手順

2026年2月28日

Pagesで2,000語のポッドキャスト用スクリプトを書き終え、「選択項目を読み上げる」のショートカットキーを押すと、2009年に電子レンジの中で録音されたかのような声が聞こえてくる。システム設定を開き、「スピーチ」や「読み上げコンテンツ」に関する6つの異なるメニューを見つけ、いくつか設定を変えてみたものの、なぜか状況は悪化。今やMacはすべての通知を大声で読み上げるようになり、どうすればオフにできるのかもわからない——。

macOSには、2000年代初頭からテキスト読み上げ機能が組み込まれています。Appleはここ数年で大幅な改善を行いましたが、設定が複数のパネルに散らばっていたり、macOSのバージョンによって動作が異なったり、組み込みの音声でできることとコンテンツクリエイターが実際に必要としていることとの間には、依然として大きな開きがあります。幸いなことに、どこに何があるかさえ分かれば、設定は5分ほどで終わります。そして、組み込みのオプションでは物足りなくなった時のアップグレードパスも、予想以上にスムーズです。

macOSには3つの異なるTTSシステムがある。多くの人は1つしか知らない。

これが混乱の最大の原因です。Appleには単一の「テキスト読み上げ」スイッチはありません。代わりに、重複する3つの異なるシステムがあり、それぞれ異なる場所で制御されています。

システム	機能	設定場所	主な用途
読み上げコンテンツ	選択したテキストまたは画面全体を読み上げる	システム設定 > アクセシビリティ > 読み上げコンテンツ	記事の閲覧、校正、アクセシビリティ
VoiceOver	視覚障害者向けのフルスクリーンリーダー	システム設定 > アクセシビリティ > VoiceOver	ナビゲーション、アクセシビリティ
Siriの音声	Siriの応答と音声入力のフィードバック	システム設定 > Siri	バーチャルアシスタントの応答

「Mac テキスト読み上げ」と検索する人の多くが求めているのは、**「読み上げコンテンツ」**です。これは、キーボードショートカットを使用して、あらゆるアプリで選択したテキストを読み上げる機能です。VoiceOverは、ボタン、メニュー、ウィンドウタイトルなど、画面上のすべてをナレーションする完全なアクセシビリティツールです。ただテキストを読み上げたいだけなのにVoiceOverをオンにするのは、ろうそくに火を灯すために消防車を呼ぶようなものです。

「読み上げコンテンツ」の設定：5分で完了するセットアップ

macOS Sonoma (14) 以降の場合

**「システム設定」**を開く（Appleメニュー > システム設定）
サイドバーの**「アクセシビリティ」**をクリック
**「読み上げコンテンツ」**をクリック
**「選択項目を読み上げる」**をオンにする
「システムの声」の隣にあるドロップダウンをクリックして、好みの音声を選択する
「読み上げ速度」スライダーを好みに合わせて調整する
必要に応じて、ホバー読み上げ機能を使いたい場合は**「ポインタの下の項目を読み上げる」**をオンにする

macOS Ventura (13) 以前の場合

古いバージョンではパスが若干異なります：

**「システム環境設定」**を開く（システム設定ではありません）
**「アクセシビリティ」**をクリック
左側のサイドバーにある**「読み上げコンテンツ」**をクリック
**「選択項目を読み上げる」**にチェックを入れる
「システムの声」ドロップダウンをクリックして音声を選択する
読み上げ速度を調整する

キーボードショートカット

「読み上げコンテンツ」を有効にしたら、任意のアプリケーションでテキストを選択し、Option + Esc を押すと読み上げが開始されます。このショートカットはカスタマイズ可能です：

読み上げコンテンツの設定で、「選択項目を読み上げる」の隣にある**「オプション」**（または「i」ボタン）をクリック
好みのキーの組み合わせを設定
画面上のコントローラー（再生/一時停止/スキップができる小さなフローティングパネル）を有効または無効にする

この画面上のコントローラーは有効にする価値があります。毎回システム設定に戻ることなく、一時停止、再開、早送り、速度調整が可能になります。

適切な音声の選択（Appleには意外と多くの種類がある）

ほとんどのMacユーザーは「Kyoko」やデフォルトのSiriの音声しか聞いたことがないでしょう。しかし、Appleは実際には複数の言語で数十種類の音声を提供しており、標準の音声とプレミアムダウンロード版の音声では品質に大きな差があります。

プレミアム音声のダウンロード方法

システム設定 > アクセシビリティ > 読み上げコンテンツへ移動
**「システムの声」**ドロップダウンをクリック
**「音声を管理...」**をクリック
言語別にブラウズします。プレミアム音声にはダウンロードアイコンが付いています。
音声の隣にあるダウンロード矢印をクリックします。ファイルサイズは品質レベルに応じて150MBから900MBまであります。

音声の品質階層

Appleは音声をいくつかの品質レベルに分類しています：

コンパクト音声: ファイルサイズが小さく、ロボットのような音質。システムの簡単なアナウンスには向いていますが、一文以上の長さのものを聴くには適していません。
標準音声: 中程度の品質。短い文書の校正には十分ですが、長い文章では不自然なリズムが目立ちます。
プレミアム/拡張音声: 最もダウンロードサイズが大きいですが、格段に自然です。これらはニューラルネットワーク合成を使用しており、実在の人物に近い響きを持っています。「Zoe (Premium)」、「Evan (Premium)」などがこのカテゴリーに属します。

ただし、プレミアム音声であっても限界があります。2〜3分程度なら良好に聞こえますが、それを過ぎると抑揚が平坦になり、感情的な変化が消え、単調なリズムになってしまうため、長時間聴き続けるのは苦痛になります。これはバグではなく、Appleが実用的に提供できるオンデバイスモデルのサイズの限界です。

各Macアプリでのテキスト読み上げの使用

「読み上げコンテンツ」を有効にすると、Option + Esc ショートカットはほぼすべてのMacアプリケーションで機能します。主なアプリでの動作は以下の通りです：

Pages とテキストエディット: テキストを選択してショートカットを押します。非常に安定して動作し、選択範囲を読み上げると停止します。

Safari と Chrome: Webページ上のテキストを選択してショートカットを押します。他の作業をしながら記事を聴くのに便利です。Safariには、読み上げの前にページの書式を取り除く**「リーダー表示」**機能もあり、これを使うと読み上げのペースが向上することがあります。

プレビュー (PDF): PDF内のテキストを選択してショートカットを押します。品質はPDFに選択可能なテキストデータが含まれているかどうかに依存します。OCR処理されていないスキャン文書では機能しません。

メール: メールの本文を選択してショートカットを押します。読むのが面倒な長いメールを聴くのに重宝します。

ターミナル: 実はコマンドラインからもTTSを実行できます。say "読み上げたいテキスト" と入力して実行すると、システム音声で読み上げられます。長いテキストの場合は say -f /path/to/textfile.txt、さらにオーディオファイルとして書き出すには say -f script.txt -o output.aiff と入力します。このコマンドは、macOSに標準搭載されている唯一のオーディオ書き出し機能に近いものです。

あまり知られていないターミナルの裏技

say コマンドには、インストールされている音声を指定する -v フラグがあります：

say -v "Kyoko" "これはプレミアム音声のテストです。"

say -v "?"

この2つ目のコマンドを実行すると、システムにインストールされているすべての音声がリストアップされます。システム設定をクリックして回るよりも早く音声を確認できる方法です。

テキスト読み上げを無効にする方法（鳴り止まない時の対処法）

驚くほど多くのMacユーザーが、誤ってVoiceOverや読み上げコンテンツを有効にしてしまい、どうやって消せばいいか分からなくなるため、このセクションを設けました。Macが画面上のすべてをナレーションし始めたら、以下の方法で即座に修正できます：

VoiceOverが動作している場合（クリックするたびに喋る）

すぐに Cmd + F5 を押してください。これでVoiceOverがオフになります。Touch Bar付きのMacBookや最新モデルでは、Touch IDボタンをトリプルクリックすることでも解除できます。

選択項目の読み上げが途中で止まらない場合

もう一度 Option + Esc を押すと、現在の読み上げが停止します。それでも止まらない場合は、選択したテキスト以外の場所をどこでもいいのでクリックしてください。

通知やアラートを読み上げてしまう場合

システム設定 > アクセシビリティ > 読み上げコンテンツへ移動
**「通知を読み上げる」**をオフにする
ついでに、意図しない読み上げを防ぐために**「ポインタの下の項目を読み上げる」**もオフになっているか確認してください。

完全無効化チェックリスト

Mac上のすべてのTTSを完全に静かにするには：

読み上げコンテンツ: システム設定 > アクセシビリティ > 読み上げコンテンツ > すべての項目をオフにする
VoiceOver: システム設定 > アクセシビリティ > VoiceOver > オフにする（または Cmd + F5）
Siriの音声フィードバック: システム設定 > Siri > 音声の応答 > オフ
オーディオアラート: システム設定 > サウンド > 「起動時にサウンドを再生」のチェックを外し、通知音量を調整する

このリストをすべて確認すれば、明示的に操作しない限りMacが喋り出すことはなくなります。

macOS TTSの限界（とその次の一歩）

Appleの組み込み音声は、短い文書の素早い校正やアクセシビリティの目的には十分です。しかし、それ以上の用途では、以下のような厳しい制限に直面することになります：

音声のカスタマイズが不可: 速度スライダー以外に、感情、強調、間の取り方を調整することはできません。ジョークも悲劇も、同じ抑揚で読み上げられます。
限られた音声バリエーション: プレミアム音声をすべてダウンロードしても、選択肢はせいぜい15〜20種類程度です。コンテンツ制作で特定のトーン、アクセント、キャラクターが必要な場合、ライブラリが少なすぎます。
音声クローニング不可: 自分の声に似せたり、特定のブランドボイスに合わせたりする音声を作成する方法はありません。
オーディオ書き出しが原始的: say コマンドで AIFF 形式には書き出せますが、MP3 や WAV、あるいは適切なノーマライズ処理が施されたポッドキャスト品質の音声を生成する標準機能はありません。
多言語品質の格差: Appleのプレミアム音声は主要言語では強力ですが、マイナーな言語に切り替えると、途端にロボットのような音質に戻ってしまいます。
長尺での一貫性の欠如: 2〜3分を過ぎると韻律（リズム）が崩れ、長時間のリスニングは疲れます。20分のスクリプトなら、18分目の音声は1分目よりも明らかに質が落ちて聞こえるでしょう。

これらの制限は、メールの脱字チェックに使う分には問題ありません。しかし、YouTube動画の制作、講座のナレーション、あるいは聴衆が実際に耳にするオーディオコンテンツの作成においては、非常に大きな問題となります。

Macでの校正からプロフェッショナルなオーディオ制作へ

組み込みの音声では物足りなくなった時、ワークフローを切り替えるのは簡単です。執筆は引き続きMacで行い、音声の生成だけを専用のAI TTSプラットフォームで行うのです。

Fish Audio は、macOSが残した課題を正確に解決します。切り替えることで何が変わるかは以下の通りです：

20種類ではなく200万種類以上の音声。 Fish Audioの音声ライブラリは、言語、アクセント、トーン、用途別に分類されています。チュートリアル用に温かみのある会話調の英語音声が必要ですか？フィルターで検索すればすぐに見つかります。ローカライズされた製品動画用に明快な日本語のナレーターが必要ですか？それも揃っています。Appleが提供しているものより約10万倍大きな選択肢があります。

長尺スクリプトでも維持される抑揚。 Fish Audioのモデルアーキテクチャは、長いコンテンツ全体を通じて感情の変化やペース配分を処理します。15分のナレーションでも、macOSの音声のように2〜3分で単調になることなく、最初から最後までキャラクターを維持します。疑問文は疑問文らしく、強調すべき箇所は適切に強調されます。

15秒の音声クローン。 すべての音声を自分の声にしたいですか？15秒のサンプルをアップロードするだけで、Fish Audioはあなたの声の個性を再現したクローンを作成し、どんなテキストでもあなたの声で生成できるようにします。Appleにはこれに匹敵する機能はありません。

品質を落とさない13か国語以上のサポート。 Fish Audioは、サポートするすべての言語でネイティブレベルの発音を維持します。英語で自然に聞こえる音声は、スペイン語、中国語、日本語、アラビア語でも自然なままです。言語を切り替えた途端に品質が崖から落ちるようなことはありません。

制作にすぐ使える音声ファイル。 YouTube、ポッドキャスト、講座プラットフォームなどで即座に使用できるMP3またはWAVファイルを生成・ダウンロードできます。ターミナルでの回避策や、AIFFからMP3への変換作業はもう必要ありません。

Macクリエイターの推奨ワークフロー

Pages、Googleドキュメント、または使い慣れたテキストエディタでスクリプトを書く。
macOSの「読み上げコンテンツ」 (Option + Esc) を使い、不自然な言い回しがないか素早く校正する。
完成したテキストをコピーし、fish.audio/text-to-speech に貼り付ける。
ライブラリから音声を選択する（または自分のクローン音声を使用する）。
コンテンツに合わせて感情やペースを調整する。
音声ファイルを生成してダウンロードする。
Final Cut Pro、Logic Pro、GarageBand、ポッドキャストエディタなど、使用しているプロジェクトにドロップする。

このワークフローにより、macOSのTTSをその得意分野（無料かつ即座に行える校正）に留めつつ、実際にプロフェッショナルな品質が求められる部分には Fish Audio を活用することができます。

料金について

Fish Audioは、実際のスクリプトでテストするのに十分な無料枠を提供しています。有料プランは月額11ドルからで、25万クレジットが含まれます。これはS1モデルで約200分（約3時間20分）、v1.5またはv1.6モデルで約400分（約6時間40分）の生成に相当します。比較として、macOSのTTSは無料ですが実用的な音声ファイルの書き出しはできません。また、15時間のコンテンツを人間の声優に依頼すれば、3,000ドルから15,000ドルほどの費用がかかります。詳細な料金体系はこちらで確認できます。

結論

macOSには、散らばった設定パネルの影に隠れてはいるものの、有能なテキスト読み上げ（TTS）システムが備わっています。「読み上げコンテンツ」こそが求める機能であり、Option + Esc がそのショートカットであること、そしてプレミアム音声のダウンロードが存在することを知っていれば、Macの標準機能だけで素早い校正やカジュアルなリスニングには十分対応できます。もしVoiceOverが誤って画面のナレーションを始めてしまったら、Cmd + F5 がパニックボタンであることを思い出してください。

しかし、標準の音声はあくまでアクセシビリティやシステムフィードバックのために設計されたものであり、コンテンツ制作のためのものではありません。2分以上聴き続けられる音声、ブランドに合った声、あるいは翻訳エンジン感のない多言語出力が必要になった瞬間、Appleの標準機能では物足りなくなるはずです。執筆はMacで、校正は読み上げコンテンツで、そして制作は Fish Audio で。今ある執筆ツールと、聴衆に届けるための最高品質の音声エンジンを組み合わせましょう。

リアルに感じる声を作成する

今日から最高品質のオーディオを生成し始めましょう。

無料でサインアップ

すでにアカウントをお持ちですか？ログイン

この記事を共有する

Kyle Cui

Kyle is a Founding Engineer at Fish Audio and UC Berkeley Computer Scientist and Physicist. He builds scalable voice systems and grew Fish into the #1 global AI text-to-speech platform. Outside of startups, he has climbed 1345 trees so far around the Bay Area. Find his irresistibly clouty thoughts on X at @kile_sway.

Kyle Cuiの他の記事を読む >