Mac音声入力完全ガイド：macOS音声入力の設定と活用方法

2026年2月28日

8時間のタイピング、4,000語。手首が限界を訴え始めています。Macの音声入力（Mac音声入力）をオンにして話し始めると、最初の2文は完璧に表示されます。しかし、30秒ほど考えて一時停止すると、Mac音声入力は勝手に終了してしまいます。再起動して今度は早口で話すと、ランダムな単語が勝手に大文字になったり、カンマが無視されたりしていることに気づきます。3回目の再起動をする頃には、タイピングするよりもツールと戦うことに時間を費やしている状況です。

Macの内蔵音声入力機能は、多くのユーザーが思っている以上に高性能ですが、デフォルトの挙動が直感的ではなく、設定が複数のシステムパネルに分かれており、最も便利な機能が宣伝されていません。平均的な人のタイピング速度は1分間に40語ですが、Macの音声入力は1分間に130〜160語をキャプチャできます。セットアップさえ正しく行えば、3〜4倍のスピード向上が現実のものとなりますが、30秒ほどの沈黙で音声入力が自動停止してしまっては、その価値も半減してしまいます。

2026年のMac音声入力：2つのエンジンと紛らわしい設定

Appleは現在、macOSに2つの音声入力システムを搭載しており、その違いは精度、プライバシー、および中断なしにどれだけ長く話せるかに影響します。

機能	拡張音声入力（オンデバイス）	標準音声入力（サーバーベース）
処理	Mac上、インターネット不要	Appleサーバー、インターネットが必要
連続音声入力	はい、制限なし	一時停止後に自動停止
プライバシー	音声はデバイスの外に出ない	音声は処理のためAppleに送信される
精度	サポート言語で非常に高い	特殊なケースでわずかに優れる
ストレージ	言語あたり1〜2 GBのダウンロード	ローカルストレージ不要
利用可能条件	Appleシリコン搭載のmacOS Ventura 13以降	すべてのmacOSバージョン

Appleシリコンを搭載し、macOS Ventura以降を実行しているMacでは、オンデバイス音声入力がデフォルトです。Neural Engineを使用してローカルで音声を処理するため、タイムアウトせず、Wi-Fiも不要で、音声がAppleのサーバーに送信されることもありません。

古いIntel搭載Macでは、インターネット接続が必要で、短い停止の後に自動停止しやすいサーバーベースの音声入力に限定されます。この自動停止の挙動こそが、一度音声入力を試して諦めてしまう多くのユーザーを不満にさせている原因です。

どちらのバージョンを使用しているか不明な場合は、システム設定 > キーボード > 音声入力を確認してください。「オンデバイス音声入力」という記載があれば、ローカルエンジンを使用しています。

音声入力のセットアップ：正しい方法（見落としがちな点）

多くの人は、キーボードのマイクキーを誤って押した時に偶然「音声入力」を見つけます。セットアップは簡単ですが、体験を劇的に変える2つの見落としがちな設定があります。

基本的なセットアップ

システム設定を開く（Appleメニュー > システム設定）
サイドバーのキーボードをクリック
音声入力までスクロールしてオンにする
言語を選択（複数追加可能）
ショートカットを設定（デフォルトはFnキーを2回押すですが、「Fnキーを押す」やカスタムショートカットも選択可能）
プロンプトが表示されたら、その言語のオンデバイス音声認識モデルをダウンロードする

多くの人が見落とす2つの設定

自動句読点： macOS Sonoma以降、Appleはデフォルトで自動句読点を有効にしました。音声入力は、「まる」や「てん」と言わなくても、話し方のパターンに基づいて句点、読点、疑問符を挿入します。これが機能しない場合は、macOS 14以降を実行していること、および音声入力言語が英語、スペイン語、フランス語、ドイツ語、イタリア語、ポルトガル語、中国語、韓国語、または日本語であることを確認してください（自動句読点はまだすべての言語をサポートしていません）。

マイクのソース： デフォルトでは、macOSはシステムで構成されているマイクを使用します。精度が低い場合、解決策はソフトウェアではなくハードウェアにあることが多いです。システム設定 > サウンド > 入力に移動し、最適なマイクが選択されていることを確認してください。安価なUSBマイクでも、口の近くに置くことで、内蔵マイクよりも音声入力の精度が向上することがよくあります。

Macでの実際の音声入力方法（アプリ別）

Mac音声入力が有効になれば、起動方法はどこでも同じです。ショートカット（デフォルト：Fn 2回）を押し、話し始め、もう一度ショートカットを押して停止します。ただし、アプリによって挙動が若干異なります。

Pagesとテキストエディット

Macで最も快適な音声入力体験が得られます。カーソルを置き、Mac音声入力を起動して話すだけです。テキストはリアルタイムで表示されます。タイピングと音声入力を切り替えながら、継続的に入力できます。macOS Sonoma以降では、キーボードで素早く編集するためにMac音声入力を停止する必要はありません。

メモ

ブレインストーミングや会議のメモに最適です。便利なテクニックとして、新しいメモを作成して音声入力を開始し、音声の下書き帳として使用する方法があります。メモはiCloudに同期されるため、入力したテキストはすぐにiPhoneやiPadでも利用可能になります。

メール

Mac音声入力は作成ウィンドウで機能します。タイピングが面倒に感じる長い返信に便利です。注意点として、URLやメールアドレスを音声で入力しようとすると精度が著しく低下します。これらは一文字ずつ綴るか、手動で入力してください。

SafariとChrome（テキストフィールド）

音声入力は、Google ドキュメント、Notion、Slack、SNSの投稿欄など、ウェブ上のあらゆるテキストフィールドで機能します。ただし、ウェブベースのテキストエディタはリアルタイムの挿入を異なる方法で処理する場合があり、カーソルが飛んでしまうことがあります。テキストが間違った場所に表示された場合は、クリックしてカーソルを再配置し、音声入力を再開してください。

ターミナル

技術的にはターミナルでも音声入力は機能しますが、実用的ではありません。コマンドの構文、フラグ、ファイルパスなどは音声認識とうまく適合しません。ターミナルではタイピングを使用することをお勧めします。

音声入力を実際の編集ツールに変える音声コマンド

ほとんどのMacユーザーはテキストを音声で入力した後、キーボードとマウスに切り替えてすべてを修正します。これでは価値の半分が失われています。macOSは句読点、フォーマット、基本的な編集のための音声コマンドをサポートしており、入力後のクリーンアップの大部分を不要にします。

句読点（入力中にこれらを言います）：

「まる」（句点）
「てん」（読点）
「はてな」（疑問符）
「びっくりまーく」（感嘆符）
「ころん」 / 「ぜみころん」
「かぎかっこ」 ... 「かぎかっこ閉じる」
「かっこ」 ... 「かっこ閉じる」
「なかてん」

行と段落の制御：

「改行」（次の行に移動）
「新しい段落」（段落を分ける）
「タブキー」

編集コマンド：

「前の単語を選択」 / 「次の単語を選択」
「すべてを選択」
「それを削除」（最後に入力したフレーズを削除）
「取り消す」
「数字の[数字]」（例：「数字の5」 → 「5」と入力）

多くの人が気づいていない点：macOS Sonoma以降では、タイピングと音声入力をリアルタイムで混ぜることができます。段落を音声で入力し、マウスで別の場所をクリックして修正を加え、また音声入力を再開できます。「音声入力かタイピングか、どちらか一方」という古い挙動は、新しいシステムにはもうありません。

精度を低下させる5つの要因（とその解決策）

Mac音声入力の精度が期待外れだと感じる場合、ほぼ確実に以下の5つの要因のいずれかが原因です。

1. 騒がしい部屋での内蔵マイクの使用： 精度を下げる最大の要因です。MacBookのマイクはFaceTime通話用に設計されており、継続的な音声入力用ではありません。口から15〜20cmほど離したUSBコンデンサーマイク（数千円程度のもので十分）を使用すると、静かな環境での精度が約85%から95%以上に向上します。

2. 一時停止なしに早口で話す： 音声入力は音声をチャンク（塊）ごとに処理します。自然な間を置かずに文をつなげて話すと、モデルは文脈の境界を見失い、誤変換が増えます。会話のようなペースで、文の間に0.5秒ほどの間を置いて話してください。自然な会話より少し遅く、丁寧な発音より少し速いくらいが理想です。

3. 標準的でないアクセントや方言： Appleのモデルは主要なアクセントには対応していますが、強い方言や非常に独特なアクセントには苦戦することがあります。オンデバイス処理は連続した文脈を考慮するため、サーバーベースよりもわずかに寛容ですが、個人差は依然として存在します。

4. 周囲の音声の混入： 音楽、テレビ、他人の話し声など。小さな音量でも、競合する音声はモデルを混乱させます。音声を聞くときはヘッドフォンを使用し、マイクには自分の声だけが入るようにしてください。

5. システムを学習させていない： macOSは時間の経過とともにユーザーの音声パターンを学習しますが、それはエラーを（音声で上書きするのではなく）キーボードを使って修正した場合に限られます。音声入力が間違えたときは、その単語をクリックして修正を入力してください。数日から数週間で、特定の語彙や話し方に対する精度が向上します。

Mac音声入力の限界（そして代わりに何を使うべきか）

Mac音声入力は、本来の目的である「リアルタイムで自分の声をテキスト化する」ことに関しては非常に優れています。しかし、マイクのアップグレードや学習だけでは解決できない明確な限界があります。

音声ファイルの文字起こしができない： 音声入力にMP3、Zoomの録音、ボイスメモを読み込ませることはできません。マイクからのライブ入力のみを処理します。インタビュー、講義、ポッドキャスト、会議などの録音ファイルを文字起こしする必要がある場合、Mac音声入力は役に立ちません。

話者の識別ができない： 音声入力には、誰が話しているかを識別する概念がありません。2人のインタビューをスピーカーで再生して無理やり文字起こしさせても（オーディオループバックなどの回避策）、話者のラベルがない、区切りのないテキストの壁ができるだけです。

1セッションにつき1言語： 英語と日本語を同時に、あるいはセッション中に切り替えて入力することはできません。言語を切り替えるには、一度音声入力を停止し、設定を変更して再起動する必要があります。バイリンガルの方や多言語コンテンツを扱う場合、これはワークフローを阻害します。

タイムスタンプがない： 音声入力はプレーンテキストを出力します。音声とリンクしたタイムスタンプを取得する方法がないため、録音の特定の箇所を後で確認する必要があるジャーナリストや研究者には不向きです。

不完全な音声への対応力： 音声入力は、マイクに向かって直接話すクリアな音声を前提としています。電話越しの音声、部屋の反響、街の騒音など、音質が少しでも低下すると精度が急落し、修正するよりも最初からタイピングした方が早くなってしまいます。

ライブ音声入力からFish Audioによる本格的な文字起こしへ

ニーズが「自分の考えを入力する」から「録音された音声を文字起こしする」へと変わったとき、Mac音声入力の限界を補う専用の音声認識ツールが必要になります。

Fish AudioのSpeech to Textは、macOSでは対応できないシナリオのために構築されています。

あらゆる音声ファイルをアップロード： MP3、WAV、M4A、録音されたインタビュー、Zoomの書き出し、ボイスメモ、ポッドキャストのエピソード。ファイルをドロップするだけで、テキスト化が完了します。リアルタイム再生の裏技や複雑なルーティング、待ち時間は不要です。バッチモードでは、処理スピードは通常、音声の長さの約0.3〜0.5倍（例：10分のファイルなら約3〜5分で完了）となるため、長いファイルも効率的に処理できます。

現実世界の音声でも高い精度： Fish Audioのモデルは、電話音質、反響、背景ノイズ、重なり合う会話など、多様な録音条件下でトレーニングされています。スタジオ品質でない録音でも、Mac音声入力で無理やり文字起こしするより遥かに高い精度が得られます。

セッション切り替えなしの多言語文字起こし： Fish AudioのSpeech to Text（STT）は100以上の言語と方言をサポートしています。英語、中国語、広東語、日本語、韓国語などを明示的にサポートしており、多言語が混ざった音声も自動的に処理されます。英語と日本語が混ざった録音でも、セッションを分けることなく、一つのファイルとして処理可能です。

Macユーザーのための実用的なワークフロー：

ライブの下書きやアイデア出し： Mac音声入力を使用。無料かつ内蔵機能で、静かな部屋での一人での入力に最適です。Fnキーを2回押して話すだけです。
録音された音声の文字起こし： Fish Audio STTを使用。ファイルをアップロードし、クリーンなテキストを取得して、Macのエディタに貼り付けます。
完成したテキストから音声を生成： 2,000,000以上の音声、15秒の音声クローン、8言語対応のFish Audio TTSを使用。

この組み合わせにより、音声からテキスト、そしてテキストから音声への完全なループが完成します。Mac音声入力は無料のライブ入力側を担当し、Fish Audioはファイル処理、多言語サポート、またはプロダクション品質の出力を必要とするすべてを担当します。この2つのツールは競合するのではなく、補完し合う関係にあります。

料金について

Fish Audioの無料プランは、サンプルだけでなく実際の録音でテストするのに十分な内容です。有料プランは月額11ドルからで、60万文字のTTS出力が含まれ、STTの利用も可能です。参考に、プロの人間による文字起こしサービスは音声1分あたり1〜3ドルほどかかります。60分のインタビューなら60〜180ドルかかり、納品まで24〜48時間待つことになります。Fish Audioなら同じファイルを2分以内で処理します。詳細な価格設定はこちらをご確認ください。

結論

Mac音声入力は、macOSで最も活用されていない生産性機能の一つです。正しく設定し（適切なマイク、オンデバイスエンジン、自動句読点の有効化）、10個の音声コマンドを覚えるだけで、手首に負担をかけることなくタイピングの3〜4倍の速さでコンテンツを作成できます。本来の役割において、非常に優れたツールです。

一方で、録音の文字起こしや多言語の同時処理、マイクから直接入力されない音声の処理は得意ではありません。そのようなワークフローには、Mac音声入力をライブ入力用として使いつつ、それ以外をFish Audioで補うのが最もスマートな道です。入力側のファイル文字起こしから、出力側のプロフェッショナルな音声生成まで。まずは無料プランから、ボイスメモに眠っている録音ファイルでその実力を試してみてください。

リアルに感じる声を作成する

今日から最高品質のオーディオを生成し始めましょう。

無料でサインアップ

すでにアカウントをお持ちですか？ログイン

この記事を共有する

Kyle Cui

Kyle is a Founding Engineer at Fish Audio and UC Berkeley Computer Scientist and Physicist. He builds scalable voice systems and grew Fish into the #1 global AI text-to-speech platform. Outside of startups, he has climbed 1345 trees so far around the Bay Area. Find his irresistibly clouty thoughts on X at @kile_sway.

Kyle Cuiの他の記事を読む >