Google Docs 音声入力完全ガイド:音声入力とスピーチ・トゥ・テキストの使い方

2026年2月28日

Google Docs 音声入力完全ガイド:音声入力とスピーチ・トゥ・テキストの使い方

スマホで45分間のクライアント・インタビューを録音したとしましょう。デスクに戻り、Google Docs を開いて「文字起こし」という機能を探しても、どこにも見当たりません。そこで Google Docs 音声入力を試し、ラップトップのスピーカーにスマホを近づけて再生ボタンを押します。Google は言葉の約40%を正しく書き起こしますが、音声の質が少しでも落ちると、完全に諦めてしまいます。

これが、多くの人が身をもって知ることになる「ギャップ」です。Google Docs には、静かな部屋でマイクに向かって直接話すような、ライブの口述筆記には適した音声文字変換ツールが組み込まれています。しかし、録音データを書き起こしたり、複数の話者がいたり、騒がしい環境で入力しようとしたりした瞬間、Google Docs 音声入力は限界に達します。一般的な人のタイピング速度は1分間に40単語ですが、音声入力なら150単語に達することもあります。この3.7倍のスピード差は非常に魅力的ですが、それはスピーチ・トゥ・テキスト・ツールが実際に話した内容を正確に捉えられる場合に限られます。

Google Docs 音声入力は(適切な設定次第で)想像以上に機能する

多くの人は一度音声入力を試して、エラーの多さにイライラして諦めてしまいます。ほとんどの場合、問題はツールそのものではなく、環境設定にあります。15ドルのUSBマイクを使い、静かな部屋で入力するだけで、カフェでラップトップの内蔵マイクを使うよりも精度は2倍になります。

始める前に、音声入力ができることとできないことを確認しておきましょう:

機能対応状況備考
ライブ口述筆記はいマイクに直接話しかける
オーディオファイルの文字起こしいいえライブのマイク入力のみ処理可能
音声による句読点入力はい「まる」「てん」「改行」などと言う(言語による)
多言語対応はい100以上の言語をサポート
話者識別いいえ誰が話しているかを区別できない
オフライン使用いいえインターネット接続が必要
モバイル対応はいAndroid および iOS の Google Docs アプリ

「オーディオファイルの文字起こし」の項目が「いいえ」になっていることが、多くのユーザーが代替ツールを探す最大の理由です。これについては後ほど詳しく説明します。

ステップ・バイ・ステップ:Google Docs で音声入力を設定する方法

デスクトップ(Chrome ブラウザが必要)

音声入力は Google Chrome でのみ動作します。Firefox、Safari、Edge では表示されません。

  1. Chrome で Google Docs を開く
  2. ツール > 音声入力 を選択(または Windows の場合は Ctrl + Shift + S、Mac の場合は Cmd + Shift + S を押す)
  3. ドキュメントの左側にマイクのアイコンが表示されます
  4. マイクの上のドロップダウンをクリックして、言語を選択します
  5. マイクのアイコンをクリックします。録音中は赤くなります。
  6. 自然なペースで、はっきりと話し始めます
  7. 停止するにはもう一度マイクをクリックするか、約30秒間沈黙すると自動的に停止します

モバイル(Android および iOS)

モバイル版は、デバイス標準の音声認識を使用するため、少し操作が異なります:

  1. Google Docs アプリを開く
  2. テキストを入力したい場所をタップしてカーソルを置く
  3. キーボード上の マイクアイコン をタップする(これは Google Docs 固有の音声入力ではなく、デバイスの音声入力機能です)
  4. 自然に話すと、テキストがリアルタイムで表示されます
  5. 停止するにはもう一度マイクをタップします

Android の場合、OS と密接に統合されているため、Google のスピーチ・トゥ・テキスト認識は高い精度を誇ります。iOS の場合は Apple の音声入力エンジンを使用するため、英語は得意ですが、他の言語では Google の精度に劣る場合があります。

作業時間を10分短縮する音声コマンド

多くのユーザーは、Google Docs 音声入力がフォーマットやナビゲーションのための音声コマンドに対応していることを知りません。これらを5つ覚えるだけでも、音声入力とタイピングを交互に切り替える手間がなくなります。

主な句読点コマンド(日本語の場合):

  • 「まる」 → 。
  • 「てん」 → 、
  • 「はてな」 → ?
  • 「改行」 → 次の行へ移動
  • 「新しい段落」 → 段落を分ける

書式設定コマンド(英語設定時のみ利用可能):

  • "Bold" / "Unbold" (太字)
  • "Italics" / "Remove italics." (斜体)
  • "Underline" / "Remove underline." (下線)
  • "Create a bulleted list." (箇条書きリスト作成)
  • "Create numbered list." (番号付きリスト作成)

ナビゲーションと編集:

  • "Select [word]" → 特定の単語を選択
  • "Select all" → すべて選択
  • "Delete" / "Backspace" → 直前の単語を削除
  • "Go to end of line" → カーソルを末尾へ移動
  • "Undo" → 操作の取り消し

注意点として、これらの書式設定コマンドはインターフェース言語が英語に設定されている場合にのみ機能します。スペイン語や日本語で口述筆記をしている場合、内容はそれらの言語で入力できますが、書式設定のコマンドは英語で発音する必要があります。これは Google Docs 音声入力を多言語で使用するユーザーにとって、少し不便な制限です。

音声入力が苦手なこと(ツールの切り替え時時)

音声入力は、静かな環境での下書き作成という本来の目的には驚くほど優秀です。しかし、どのような設定をしても解決できない5つの大きな制限があります。

オーディオファイルの文字起こしが不可。 これが最大の欠点です。MP3をアップロードしたり、WAVファイルをドラッグしたり、Zoom の録画を読み込ませたりすることはできません。ライブのマイク入力しか処理できないため、録音済みのインタビューや講義、ポッドキャストを書き起こす必要がある場合、Google Docs の音声文字変換は役に立ちません。

単一の話者のみ。 音声入力には話者分離(誰が話しているかを識別する機能)がありません。会議で2人が話している場合、書き起こしは誰が何を言ったかの区別がない、区切りのないテキストの塊になってしまいます。インタビューやフォーカスグループ、複数人の会議では、手作業での修正なしには使い物になりません。

アクセントや背景ノイズに弱い。 Google のスピーチ・トゥ・テキスト・モデルは、主に標準的なアクセントで学習されています。非ネイティブ、方言、あるいはわずかな背景ノイズがあるだけでも、精度は80%以下に落ちることがあります。そのエラー率では、入力する時間よりも修正する時間の方が長くなってしまいます。

事後の自動整形機能がない。 音声入力は生のテキストを出力するだけです。文頭以外の固有名詞の自動大文字変換、数字や日付のスマートなフォーマット、文脈に基づいた同音異義語の修正などは行われません。

リアルタイム通信が必須。 話している最中にインターネットが切れると、音声入力は停止します。ローカルでのバックアップやバッファリング、復旧機能はありません。接続環境に依存するため、Wi-Fi が不安定な場所での長時間の入力には向きません。

Google Docs でオーディオファイルを書き起こすための回避策

技術的に可能な「ハック」がありますが、非常に手間がかかります。

  1. コンピュータの サウンド設定 を開く
  2. システムのオーディオ出力をマイク入力としてループバックするように設定する(Windows の場合は「ステレオ ミキサー」、Mac の場合は Soundflower や BlackHole などのサードパーティアプリが必要)
  3. Google Docs を開き、音声入力を開始する
  4. オーディオファイルを再生する。システムが仮想マイクを通じて音声を送り、Google Docs がリアルタイムで書き起こします。

実際、この方法には3つの問題があります:

  • 音声が余分な処理レイヤーを通るため、精度が大幅に低下する
  • リアルタイムで再生し続ける必要がある。60分の録音を書き起こすのに60分かかる
  • システムの通知音や他のアプリの音まで文字として書き起こされてしまう

短くてクリアな音声クリップであれば、急場しのぎにはなります。しかし、5分以上の録音や、音質が完璧でないものに対しては、現実的な解決策ではありません。

Google Docs では不十分な場合:Fish Audio によるプロフェッショナルな音声文字変換

音声入力では対応できないシナリオがある場合、専用の音声文字変換ツールがそのギャップを完全に埋めてくれます。Fish Audio の Speech-to-Text は、アップロードされた音声、多言語、ノイズの多い録音、高品質な文字起こしなど、まさにこうしたユースケースのために設計されています。

fish-logo

音声入力にはない Fish Audio のメリット

  • オーディオファイルのアップロード: MP3, WAV, M4A などの一般的な形式をドロップするだけ。リアルタイム再生のトリックは不要です。ファイルをアップロードすれば、テキストが手に入ります。
  • 多様なアクセントでの高精度: Fish Audio のモデルは、標準的な言葉遣いだけでなく、多様な話し方で学習されています。地域特有のアクセント、非ネイティブの話し方、言い淀みや割り込みのある会話も、より適切に処理します。
  • 多言語文字起こし: 英語、中国語(普通話・広東語)、日本語、韓国語をサポートしています。
  • ノイズ耐性: 背景ノイズ、部屋の反響、電話品質の録音など。スタジオ品質でない、現実世界のオーディオを処理するように構築されています。

ワークフロー:録音データを数分で Google Docs へ

  1. fish.audio/speech-to-text へアクセス
  2. オーディオファイルをアップロード(インタビュー、講義、会議録音、ボイスメモなど)
  3. 言語を選択(または自動検出に任せる)
  4. 文字起こしをクリックして待つ。 最大60分までのファイルに対応。処理時間はファイル長や負荷によりますが、リアルタイム再生は必要ありません。
  5. テキストをコピー して、Google Docs に貼り付ける

これだけです。テキストはクリーンで整形されており、すぐに編集できます。仮想オーディオの設定も、リアルタイム再生も、Wi-Fi が切れないよう祈る必要もありません。

実際のコンテンツ制作ワークフローでの活用

Google Docs をメインで使うライターやクリエイターにとって、最も実用的な構成は以下の通りです:

  • ライブ口述筆記(下書き、ブレインストーミング、自由記述): Google Docs 音声入力を使用。無料で組み込まれており、静かな部屋での一人の作業には十分です。
  • 音声文字起こし(インタビュー、会議、講義、ポッドキャスト): Fish Audio STT を使用。ファイルをアップロードして文字起こしを行い、Google Docs に貼り付けます。
  • 完成したテキストからの音声制作(Google Docs をナレーションに変換): 200万以上の音声、15秒の音声クローニング、8言語対応の Fish Audio TTS を使用します。

この組み合わせにより、「音声からテキストへ(アイデアのキャプチャ)」と「テキストから音声へ(オーディオコンテンツの制作)」のサイクルが完結します。Google Docs を執筆の場とし、Fish Audio が音声変換の両方向を担います。

Google Docs の精度を2倍にする5つの習慣

音声入力ツールでも専用ツールでも、話し方はツール選びと同じくらい重要です:

  • 断片ではなく、完全な文章で話す。 音声認識モデルは文脈を使って単語を予測します。「会議、火曜、3時、予定」よりも「火曜日の午後3時に会議の予定を入れましょう」と言う方が、モデルが処理できる情報が多く、正確になります。
  • 句読点を声に出す。 「まる」「てん」「改行」を言いながら進めます。最初の10分は違和感があるかもしれませんが、慣れれば無意識にできるようになり、生のテキストが80%きれいな状態で出力されます。
  • 思考の合間にポーズを置き、語尾を濁さない。 1秒の明確な休止を置くことで、モデルに文章の区切りを認識させます。「あー、その、えーと……」と語尾を濁すと、修正に時間がかかるゴミのようなテキストが生成されてしまいます。
  • 内蔵マイクではなく、USBマイクを使う。 15〜25ドルのUSBコンデンサーマイクを口元から15〜20cm離して置くだけで、数万円のラップトップの内蔵マイクを凌駕します。精度の差は通常10〜15%も変わります。
  • 1セッションにつき1つの言語で話す。 文の途中で英語と日本語を切り替えると、両方の言語で精度が落ちます。一つの言語のブロックを終えたら、一度音声入力を停止し、言語設定を切り替えてから再開しましょう。

結論

Google Docs 音声入力は、ライブの口述筆記には非常に有能な無料ツールです。正しく設定し、いくつかの音声コマンドを覚え、適切なマイクを使えば、タイピングの3〜4倍の速さで下書きを作成できます。タイピングよりも考える方が速いライターにとって、これは非常に有用です。

しかし、Google Docs はテキストエディタとして作られたものであり、オーディオ処理プラットフォームではありません。録音データを書き起こしたり、複数の話者を処理したり、過酷な条件の音声を扱う必要が出たとき、Google Docs の限界を超えることになります。最もスマートな解決策は、Google Docs を執筆環境として維持しつつ、音声に関わるすべての作業に Fish Audio を活用することです。入力側の文字起こしから、出力側の音声生成まで。まずは無料プランで、手元にある最も難しい録音データから試してみてください。

よくある質問

Google Chrome ブラウザでドキュメントを開き、[ツール] > [音声入力] をクリックします。表示されたマイクアイコンをクリックすると、音声入力が始まります。
いいえ、Google Docs には録音ファイルをアップロードして文字起こしする機能はありません。マイクからのリアルタイム入力のみに対応しています。録音ファイルの文字起こしには Fish Audio などの専用ツールの使用をお勧めします。
静かな場所で、ラップトップの内蔵マイクではなく外付けの USB マイクを使用すること、そして「まる」「てん」などの句読点をはっきりと発音しながら話すことで精度が向上します。

リアルに感じる声を作成する

今日から最高品質のオーディオを生成し始めましょう。

すでにアカウントをお持ちですか? ログイン

この記事を共有する


Kyle Cui

Kyle CuiX

Kyle is a Founding Engineer at Fish Audio and UC Berkeley Computer Scientist and Physicist. He builds scalable voice systems and grew Fish into the #1 global AI text-to-speech platform. Outside of startups, he has climbed 1345 trees so far around the Bay Area. Find his irresistibly clouty thoughts on X at @kile_sway.

Kyle Cuiの他の記事を読む >

最近の記事

すべて表示 >