あらゆるデバイスで音声入力を有効にしてディクテーションを開始する方法
2026年3月5日
ほとんどの人は1分間に約40語をタイピングしますが、話す速度は1分間に約130語です。メッセージを指で入力したり、メールを1つずつ叩いたり、会議のメモを後から手作業で書き起こしたりするたびに、3倍以上の効率化のチャンスを逃していることになります。
音声入力(Speech to Text)は、ディクテーションやボイスタイピングとも呼ばれ、話した言葉をリアルタイムでテキストに変換する機能です。主要なすべてのデバイスに標準搭載されています。機能を有効にするのは簡単ですが、正確な結果を得るには、設定画面では説明されていないいくつかのコツを知っておく必要があります。
Windows 10 および 11
Windowsには2つの音声入力ツールがあります。「音声入力」は軽量なディクテーションツールで、「Windows 音声認識」はより包括的な古いシステムです。
音声入力の有効化
音声入力はより高速なオプションであり、Microsoftが積極的にメンテナンスを行っている機能です。システム全体のあらゆるテキストフィールドで動作します。
- Win + H キーを押して音声入力ツールバーを開きます。画面上部に小さなマイクパネルが表示されます。
- マイクアイコンをクリックするか、再度 Win + H を押してディクテーションを開始します。
- 自然に話してください。Windowsがリアルタイムで文字起こしを行い、カーソルの位置にテキストを挿入します。
初回設定時の注意点:
- マイクの権限: Windowsからマイクへのアクセス許可を求められる場合があります。これを許可してください。許可しないと音声入力が機能しません。
- オンライン音声認識: 精度を高めるために、[設定] > [プライバシーとセキュリティ] > [音声認識] でオンライン音声認識が有効になっていることを確認してください。クラウドベースのモデルは、オフラインのフォールバックよりも大幅に正確です。
- 句読点の自動入力: 音声入力では、句点、読点、疑問符を自動的に挿入できます。音声入力ツールバーの歯車アイコンからこの機能をオンにしてください。
ディクテーション中に使用できる音声コマンド:
- 「まる」「てん」「はてな」「びっくりマーク」で句読点を挿入
- 「改行」または「新しい段落」で行を分ける
- 「それを削除」で直前のフレーズを削除
- 「音声入力を停止」でマイクをオフにする
Windows 音声認識
古い「音声認識」ツールは、Windowsの操作、アプリの起動、ボタンのクリックなどの音声コマンドを含む、より幅広い制御を提供します。より強力ですが、設定は複雑です。
- [設定] > [アクセシビリティ] > [音声認識](Windows 11)を開くか、スタートメニューで「Windows 音声認識」を検索します。
- セットアップウィザードに従います。これにはマイクの調整ステップと短い音声トレーニングが含まれます。
純粋に文字入力だけが目的であれば、「音声入力」の方が適しています。コンピュータ全体をハンズフリーで操作したい場合は、Windows 音声認識を検討する価値があります。
macOS
macOSは、システム全体の機能として「音声入力」を提供しており、オフラインで使用できる「拡張音声入力」も備えています。
音声入力の有効化
- [システム設定] > [キーボード] を開きます。
- [音声入力] セクションまでスクロールし、オンに切り替えます。
- 確認を求められたら承認します。言語モデルのダウンロードが始まる場合があります。
有効になったら、キーボードのマイクキー(新しいMacの場合)を押すか、Fnキーを2回押す(または設定したショートカット)ことで、任意のテキストフィールドでディクテーションを開始できます。
確認すべき設定:
- 言語: 言語のドロップダウンをクリックして、他の言語を追加できます。macOSは複数の言語を同時にサポートしており、話している言語を自動的に検出します。
- 句読点の自動入力: これをオンにすると、話すペースや抑揚に基づいてmacOSが句読点を自動的に挿入します。
- ショートカット: Fnキーの2回押しが使いにくい場合は、設定からショートカットをカスタマイズしてください。
macOSの音声入力は、デフォルトで音声を Apple のサーバーに送信して処理します。macOS Ventura以降を搭載した Apple Silicon 搭載の Mac では、対応言語についてデバイス上での処理が可能になり、音声データがローカルに保持されます。
音声コントロール
「音声コントロール」はmacOSの完全な音声コマンドシステムです。ディクテーションだけでなく、音声コマンドを使ってナビゲート、クリック、スクロール、編集を行うことができます。
- [システム設定] > [アクセシビリティ] > [音声コントロール] を開き、オンにします。
音声コントロールはデバイス上での処理のみを使用し、オフラインで動作します。主に完全なハンズフリー操作を必要とするアクセシビリティユーザー向けに設計されていますが、ライターやパワーユーザーの間でも、「前の文章を選択」や「それを大文字にする」といった正確な編集コマンドを目的に採用されることがあります。
iPhone および iPad
iOSには2011年から音声入力が組み込まれています。Apple の Neural Engine を搭載したデバイスでは、その精度は飛躍的に向上しています。
音声入力の有効化
- [設定] > [一般] > [キーボード] に移動します。
- [音声入力を有効] をオンにします。
- 確認メッセージが表示されたら承認します。
使用するには、テキストフィールドのあるアプリを開き、キーボード上のマイクアイコンをタップして話し始めます。終了するには、再度マイクをタップするかキーボードアイコンをタップします。
iOS 16以降を搭載した iPhone および iPad では、音声入力とキーボード入力が同時に機能します。文章を話しながら、キーボードで単語を手動で修正し、また話し続けるという動作を、モードを切り替えることなく行えます。このハイブリッド入力は、iOSで最も過小評価されている生産性機能の1つです。
便利な詳細機能:
- 音声で絵文字入力: 「ハートの絵文字」や「グッドの絵文字」と言うと、対応する絵文字が挿入されます。
- 句読点: 文章の中で自然に「まる」「てん」「はてな」「びっくりマーク」「改行」と言ってください。
- 言語の切り替え: 複数のキーボードがインストールされている場合、音声入力は多くの場合、話している言語を自動検出します。
- デバイス上の処理: A12 Bionic 以降を搭載した iPhone モデルでは、対応言語の音声入力がデバイス上で行われるため、音声データが外部に送信されることはありません。
Android
Androidの音声入力は Google の音声認識エンジンを利用しており、Gboard やその他のほとんどのキーボードアプリを通じてシステム全体で利用できます。
Gboard での音声入力の有効化
Gboard は、ほとんどの Android スマートフォンのデフォルトキーボードです。通常、音声入力はデフォルトで有効になっていますが、設定の確認方法は以下の通りです。
- [設定] > [システム] > [言語と入力] > [画面キーボード] > [Gboard] を開きます。
- [音声入力] をタップし、オンになっていることを確認します。
- または、テキストフィールドを開き、Gboard ツールバーのマイクアイコンをタップして開始します。
Samsung キーボードを使用している Samsung デバイスの場合:
- [設定] > [一般管理] > [Samsungキーボード設定] を開きます。
- [音声入力] をタップし、優先する音声エンジンを選択します。
調整すべき主な設定:
- オフライン音声認識: Gboard の設定で、[音声入力] > [オフライン音声認識] から言語パックをダウンロードしておくと、インターネットなしで使用できます。オフラインでは精度がわずかに低下しますが、遅延がなくなります。
- 句読点の自動入力: Gboard では通常デフォルトでオンになっています。エンジンが自然な休止で句点を追加し、必要に応じて読点を挿入します。
- Voice Match: 精度が低いと感じる場合は、[設定] > [Google] > [Googleアプリの設定] > [検索、アシスタントと音声] > [音声] > [Voice Match] で音声モデルを再学習させてください。
Google アシスタントの音声入力
簡単な入力であれば、「OK Google、入力して...」と言ってからメッセージを話すこともできます(アシスタント統合をサポートしているアプリの場合)。短いメッセージには高速ですが、長文のディクテーションにはあまり向いていません。
Chromebook
ChromeOS は、組み込みのアクセシビリティ機能や、ウェブアプリ内の Google 音声エンジンを通じて音声入力をサポートしています。
音声入力の有効化
- [設定] > [アクセシビリティ] > [キーボードと入力] に移動します。
- [音声入力] をオンにします。
- システムトレイに小さなマイクアイコンが表示されます。これをクリックすると、任意のテキストフィールドで音声入力を開始できます。
ChromeOS の音声入力は Android と同じ Google 音声エンジンを使用しています。精度、言語サポート、音声コマンドはほぼ同一です。
Google ドキュメントでの音声入力の使用
主に Google ドキュメントで作業する場合、アプリ専用の音声入力ツールがあります。
- Google ドキュメントを開きます。
- [ツール] > [音声入力] を選択するか、Ctrl + Shift + S を押します。
- 左側に表示されるマイクアイコンをクリックして話し始めます。
Google ドキュメントの音声入力は100以上の言語をサポートしており、「太字」「斜体」「箇条書きリストを作成」「見出し2」といった書式設定の音声コマンドも含まれています。Chromebook で文書作成を頻繁に行う場合、システムレベルの音声入力よりもこちらの方が高機能です。
最初の1文の後に精度が落ちる理由
音声入力をオンにして、1文話してみるとうまくいきました。しかし、段落全体を話してみると、結果は散々。単語の抜け、同音異義語の誤変換、句読点の位置がめちゃくちゃ。
これは非常によくある経験ですが、その原因は通常、音声エンジンではなく、初めてディクテーションを行う人の「話し方」にあります。
自然な会話には、フィラー(「えーと」「あのー」など)、言い直し、文章の途中での修正、途切れた思考が含まれます。人間が聞いているときは脳がこれらを自動的に修正しますが、音声入力エンジンは「えーと」「あ、待って」といった言葉や、中途半端な思考をすべて文字通りに書き起こしてしまいます。
精度を即座に向上させる3つのコツ:
- 話し始める前に考えをまとめる。 一呼吸置いて、頭の中で文章を完成させてから口に出してください。この習慣だけで、ほとんどの文字起こしエラーが解消されます。
- 自動入力に頼らず、句読点を明示的に言う。 「まる」や「てん」を声に出して言ってみてください。5分ほどで慣れ、自然にできるようになります。
- 一気に話さず、短いカタマリで話す。 2〜3文話したら一度止まり、確認してから次へ進みます。長すぎる連続した音声はエンジンのバッファを圧迫し、エラー率を高めます。
組み込みの音声入力エンジンは、短いメッセージやクイックメモには適しています。しかし、会議の議事録、インタビュー、講義の録音、ポッドキャストの台本など、より長いコンテンツでは、高い精度が求められ、組み込みツールでは限界が見えてきます。
組み込み音声入力の限界
デバイスレベルの音声入力は、リアルタイムで短い入力を行うために設計されています。話して、書き起こされ、手動で修正して完了。テキストメッセージや検索クエリなら、それで十分です。
しかし、以下のようなシナリオではワークフローが崩壊します:
- 長文の書き起こし: 2,000語の記事を音声入力する場合、数文ごとにエラーを修正する必要があります。その中断により、音声入力のメリットである「速さ」が失われてしまいます。
- 録音済みオーディオ: 組み込みの音声入力は、ライブのマイク入力を必要とします。音声ファイル、会議の録音、ポッドキャストのエピソードを直接書き起こすことはできません。
- 複数の話者: デバイスの音声入力は話者を区別しません。会議やインタビューでは、すべての発言が区別なく1つのテキストストリームに統合されてしまいます。
- 専門用語: 医療用語、法的用語、専門的な製品名、外国語などは誤認識されやすく、自動修正によってさらに悪化することもあります。
これらは例外的なケースではなく、音声入力が最も価値を発揮する場面であり、まさに組み込みツールが苦手とする部分です。
オーディオファイル、会議、長文書き起こしのための AI 音声入力
Fish Audio の Speech to Text は、異なるアプローチを採用しています。リアルタイムのマイク入力だけでなく、オーディオファイルを処理し、多様な音声パターンでトレーニングされたニューラルモデルを使用して高精度の文字起こしを生成します。
実用面でのメリット:
- あらゆるオーディオファイルをアップロード可能: MP3、WAV、M4A、その他の標準的な形式に対応。会議、講義、インタビュー、ポッドキャストを録音し、1文字もタイプせずにテキスト化できます。
- 多言語サポート: 幅広い言語に対応しており、会話の途中で話者が言語を切り替えるような音声も処理できます。
- 長文コンテンツでの高い精度: 組み込みの音声入力が長い文章で精度を落とすのに対し、Fish Audio の STT モデルは、数分から数時間の音声でも一貫性を保ちます。このニューラルアーキテクチャは、短時間の入力ではなく、長時間の文字起こしに最適化されています。
- マイク不要: デバイスに向かってリアルタイムで話す必要はありません。あらゆるソースからの録音をアップロードするだけで、テキストを受け取れます。
コンテンツクリエイター、ジャーナリスト、研究者、そして日常的に話し言葉をテキストに変換するすべての人にとって、ワークフローは「入力しながら常に修正する」ものから、「自然に録音し、後で一括で書き起こす」ものへと変わります。
開発者向けの API アクセス
音声入力機能を必要とするアプリケーションを構築している場合、Fish Audio の API を通じて同じ文字起こしエンジンにプログラムからアクセスできます。ユースケースには以下が含まれます:
- 会議ツール: 電話会議の自動文字起こし
- アクセシビリティ機能: ビデオプラットフォームのリアルタイム字幕
- コンテンツパイプライン: ポッドキャストや動画ナレーションの一括文字起こし
- 音声インターフェース: アプリ内でのユーザー音声のテキスト化
API は、リアルタイムアプリケーション向けのストリーミングと、録音済みファイル向けのバッチ処理の両方をサポートしています。詳細と価格については fish.audio/plan をご覧ください。
結論
音声入力は、あらゆる主要プラットフォームで利用可能です。Windows なら Win + H、Mac なら Fn 2回、iPhone や Android ならマイクアイコン、Chromebook ならシステムトレイ。有効にするのは一瞬であり、短いメッセージやメモなら組み込みツールで十分です。
しかし、それ以上の長さのコンテンツでは、組み込みツールの修正作業がスピードのメリットを打ち消してしまいます。録音データの書き起こし、会議の処理、長時間のオーディオのテキスト化を行うなら、デバイスレベルの音声入力では対応できない負荷を Fish Audio の Speech to Text が解決します。アップロードして、書き起こして、完了。それだけです。


