音声文字起こし（Speech to Text）の仕組みとは？ — 音声からテキストへの変換原理を徹底解説

2026年2月28日

ガイド

音声文字起こし（Speech to Text）の仕組みとは？ — 音声からテキストへの変換原理を徹底解説

多くの人は、音声文字起こしを単純な変換作業だと考えています。オーディオを入力すれば、辞書を引くように毎分150語の速さでテキストが出てくるというイメージです。しかし実際には、たとえ一文であっても、音声は4〜6層のニューラルネットワーク処理を通過する必要があります。それぞれの層が、人間が無意識に行っている、しかし機械がいまだに5〜15%の確率で誤認してしまうような独自の課題に対処しているのです。

スタンフォード大学の年次AIインデックスによると、エラー率は2013年の43%から、2025年にはクリアな英語オーディオにおいて5%以下にまで低下しました。それでも、この表面的な数字には大きなばらつきが隠されています。スタジオ録音のようなクリアな音声を、混雑したレストランでの電話録音に変えたり、英語からタイ語に切り替えたり、あるいは二人の話者が同時に話したりすれば、エラー率は瞬く間に15〜30%へと跳ね上がります。その理由を理解するには、この技術が実際にどのように機能しているのか、その内部構造を知る必要があります。

音声文字起こしを一言で（そして深く）説明すると

本質的に、音声文字起こし（STT：Speech to Text）は、自動音声認識（ASR：Automatic Speech Recognition）とも呼ばれ、話し言葉を書き言葉に変換する技術です。これが一言での定義です。

さらに深く説明すると、STTシステムはまずアナログ音声信号を取り込んでデジタル表現に変換し、続いて音声に対応するパターンを抽出。それらの音を、可能性の高い単語や文章にマッピングし、言語的な文脈を適用して、その発言の最も可能性の高い意味を決定します。すべてのステップにおいて、速度、精度、そして計算コストのトレードオフが発生します。スマートフォンのリアルタイム文字起こしと、24時間かかる医療用文字起こしサービスの差は、最終的にそれぞれのシステムがどのトレードオフを選択するように設計されているかによります。つまり、「音声文字起こしはどのように機能するのか」という問いに対する実用的な答えは、環境、話者の多様性、オーディオの品質、およびユースケースに大きく依存するのです。

5段階のワークフロー：音からテキストになるまでのプロセス

現代の音声文字起こしシステムは、スマートフォンで動作するものでもクラウドのデータセンターで動作するものでも、一般的に5つの主要なステージに従います。各ステージが特定の技術的課題を解決します。

ステージ 1：音声の前処理（Audio preprocessing）

生の音声データはノイズが多いものです。認識を開始する前に、システムは信号をクリーンにし、標準化します。

ノイズ除去: 交通量、音楽、重なり合う会話などの背景ノイズから音声信号を分離します。現代のシステムでは、ニューラルネットワークベースの音源分離技術を使用して、話者の声と環境音を区別します。
正規化: 音量のレベルを調整し、小さな声も大きな声も一定の信号強度になるようにします。
サンプリングとフレーミング: 連続する音声ストリームを、通常20〜25ミリ秒ずつの短い「フレーム」に分割します。各フレームは非常に短いため、その中の音声信号は音響的に安定しているものとして扱うことができます。

このステージは、オーディオの品質が精度を左右する重要な段階です。クリアなスタジオ録音はシステムに強力なスタート地点を与えますが、車内のBluetoothスピーカー越しに録音された電話音声は、後続のすべてのステージで補正が必要なノイズを持ち込むことになります。

ステージ 2：特徴量抽出（Feature extraction）

クリーンになった音声フレームは、生の波形データから音声の特徴を捉えた形式に変換される必要があります。システムは生の音波を直接処理するのではなく、「特徴量（Feature）」、つまり音声の各断片がどのように聞こえるかを数値化したものを抽出します。

伝統的に、システムは**メル周波数ケプストラム係数（MFCCs）**に依存してきました。これは、人間の耳が音の高さや音色をどのように知覚するかに近似した方法で音声を表現するものです。写真を、視覚的なノイズを捨てつつ輪郭だけを保存したスケッチに変換するようなものだと考えてください。

より新しいシステム、特にエンドツーエンドのディープラーニングシステム上に構築されたものは、MFCCのような手動で設計された特徴量をバイパスし、生の音声から直接独自の表現を学習します。OpenAIのWhisperやMetaのwav2vecなどのモデルがその例です。十分なトレーニングデータがあれば、ニューラルネットワークは人間が設計したものよりも優れた特徴表現を発見できることが証明されています。

ステージ 3：音響モデル（Acoustic modeling）

ここでは、抽出された音声の特徴が「音」へとマッピングされます。このステージの根本的な問いは、「この音声フレームにはどの音素（音の基本単位）が含まれているか？」ということです。

英語には約44の音素が含まれています。たとえば「cat」という単語は、/k/、/æ/、/t/の3つの音素で構成されています。音響モデルは各フレームから抽出された特徴を評価し、考えられるすべての音素に対する確率分布を推定します。

このステージでは、主に2つのアーキテクチャが主流となっています。

接続論的時系列分類 (CTC): ニューラルネットワークが音声シーケンス全体を処理し、事前にアライメント（音声と言語の対応付け）された訓練データを必要とせずに、各タイムステップでの音素の確率を出力します。CTCは、トレーニング中に音声と書き起こしを手動で同期させる必要性をなくした大きなブレイクスルーでした。

アテンションベースのエンコーダー・デコーダー (Transformer): GPTのような大規模言語モデルを音声処理に応用したアプローチです。エンコーダーが音声特徴を処理し、デコーダーが一度に1つのテキストトークンを生成します。「アテンション」メカニズムにより、音声のどの部分が各出力トークンに対応するかを学習します。CTCと比較して、長距離の依存関係をより効果的に扱うことができ、会話音声においてより自然な文字起こしを生成することが多いです。

2025年から2026年にかけての多くの実用的なシステムでは、速度と精度のバランスをとるために、CTCによるアライメントとTransformerベースのデコードを組み合わせたハイブリッドアプローチが採用されています。

ステージ 4：言語モデル（Language modeling）

音響モデルが「どんな音が鳴っているか」を教えるのに対し、言語モデルはその音が文脈の中で「どの単語である可能性が最も高いか」を決定します。

このステージが重要な理由は、たとえば英語の /r/ /aɪ/ /t/ という音素の並びが、「right（右・正しい）」「write（書く）」「rite（儀式）」のいずれにもなり得るからです。文脈がなければシステムは推測するしかありませんが、「please write（書いてください）」という前後の単語を知っている言語モデルがあれば、「write」である確率は確信に変わります。

現代のSTTシステムは通常、2種類の言語文脈を利用します。

統計的言語モデル: 直前の2〜5語に基づいて単語を予測します。効率的で軽量ですが、考慮できる文脈の範囲が限られています。
ニューラル言語モデル: 文章全体（または段落全体）を処理して単語の確率を推定します。曖昧なフレーズ、長距離の依存関係、複雑な文構造をより効果的に処理できますが、計算コストは大幅に高くなります。

また、ドメイン固有の語彙も言語モデルにおいて重要な役割を果たします。汎用的な言語モデルは「CRISPR-Cas9」を「crisper cast nine」と書き起こしてしまうかもしれませんが、バイオ医学データで微調整されたモデルであれば正しく認識できます。医療、法律、金融などの分野で専門的な文字起こしサービスがいまだに汎用ツールを凌駕しているのは、この専門用語への対応力によるものです。

ステージ 5：後処理とフォーマット（Post-processing and formatting）

ステージ3と4を終えた後の生の出力は、句読点、大文字、改行のない小文字の単語の羅列です。後処理によって、この生の出力を使いやすいテキストに変換します。

句読点の挿入: 音響的な手がかり（ピッチの変化や一時停止）と言語パターンに基づいて、ピリオド、カンマ、クエスチョンマークを挿入する別のモデルが動作します。
大文字化: 固有名詞、文頭、略語などが言語ルールや命名エンティティ認識に基づいて大文字に変換されます。
数値のフォーマット化: 「three hundred forty two dollars」といった音声が「$342」のように変換されます。
言いよどみの除去: 「えーと」「あのー」といったフィラー（言いよどみ）や、言い直しをオプションで削除できます。
話者分離（ダイアリゼーション）: 複数の話者がいる録音において、どの部分が誰の発言かを特定します。これは、ピッチ、音色、話速などの声の特徴を分析して、話者ごとに音声セグメントを分類する独立したモデルです。

後処理は、文字起こしが「単に正確」なだけか、「実際に使える」ものかを決定づけます。句読点のない精度95%の文字起こしよりも、適切にフォーマットされた精度92%の文字起こしの方が読みやすい場合も多いのです。

エラー率43%から5%へ：すべてを変えた3つのブレイクスルー

音声認識の研究は1950年代から行われてきました。「なぜ音声文字起こしは現代のアプリやデバイスを動かせるほど高性能になったのか」という問いの答えは、過去10年間の3つの大きなブレイクスルーにあります。

ブレイクスルー 1：ディープラーニングが隠れマルコフモデルを置き換えた (2012-2015年) 数十年の間、STTシステムはHMM（隠れマルコフモデル）と混合ガウスモデルという統計モデルに依存していました。これらのシステムは複雑に設計されていましたが、日常会話での単語エラー率は20〜25%程度で頭打ちになっていました。ディープニューラルネットワークが音響モデルの核としてHMMに取って代わると、エラー率は短期間で30%も低下しました。これが、SiriやGoogle音声検索が「面白いおもちゃ」から「不完全ながらも真に有用なツール」へと進化した転換点です。

ブレイクスルー 2：エンドツーエンドモデルがシステムを簡素化した (2016-2020年) 従来のSTTシステムは、特徴量抽出、音響モデル、言語モデルを個別に設計し、独立してトレーニングする必要がありました。GoogleのLAS（Listen, Attend and Spell）やMetaのwav2vecのようなエンドツーエンドシステムは、音声からテキストへと直接マッピングする単一のニューラルネットワークをトレーニングします。これによりエンジニアリングの複雑さが軽減され、さらに重要なことに、各ステージを個別に最適化するのではなく、プロセス全体を統合的に最適化できるようになりました。

ブレイクスルー 3：膨大なラベルなし音声による自己教師あり学習 (2020年〜現在) 最新のブレイクスルーは、人間によるラベル付け（書き起こし）がない数十万時間の音声データを使ってモデルをトレーニングすることから生まれました。たとえばOpenAIのWhisperモデルは、68万時間の多言語音声でトレーニングされました。Metaのwav2vec 2.0は、ラベルなし音声で事前学習されたモデルが、わずか10分のラベル付きデータで微調整するだけで、その100倍のラベル付きデータで学習したシステムを凌駕できることを示しました。このアプローチにより、トレーニングデータが少ないマイナーな言語を含め、現代のSTTシステムが数十の言語で安定して動作するようになったのです。

これら3つの変化は累積的なものです。現代の製品レベルのSTTシステムは、これらすべてを統合しています。その結果、クリアな英語音声ではエラー率が5%を下回り、10年前には解決不可能と思われていた過酷な条件下でも8〜15%の範囲に収まるようになりました。

なぜ実社会ではいまだに精度が変動するのか

技術がこれほど進歩しているのに、なぜスマートフォンはいまだに時々入力を間違えるのでしょうか？それは、5%というエラー率が理想的な条件下で測定されたものだからです。現実の世界では、音声はエラーを増大させる様々な変数にさらされます。

アクセントと方言のバリエーション: STTモデルは主に広く話されている標準的な方言でトレーニングされています。静かな部屋での標準的なアメリカ英語の録音は完璧に近い精度かもしれませんが、同じ環境でも強いスコットランド訛りやインド英語のアクセントでは、エラー率が10〜15%に跳ね上がることがあります。地域特有の方言や、文中で言語を切り替える「コードスイッチング」はいまだに大きな課題です。

オーディオ品質の劣化: 圧縮、背景ノイズ、話者とマイクの距離などは、すべて音を歪ませます。44.1kHzの直録音と、会議室のテーブル越しに別のデバイスで拾ったスピーカーフォンの録音では、根本的に条件が異なります。

発言の重なり: 二人の人間が同時に話すと、ほとんどのSTTシステムは重なった部分を正しく処理できません。話者分離モデルは進化していますが、特に声質が似ている場合、声を識別することは依然として技術的に困難な問題です。

ドメイン固有の語彙: 一般的なSTTモデルは、あなたの会社の製品名、業界用語、あるいは専門分野の略語を自動的に認識することはできません。ドメイン適応が行われない限り、珍しい単語は発音が似た一般的な単語に置き換えられてしまいます。

長時間の録音による劣化: 一部のモデルは、非常に長い録音において文脈を維持するのに苦労します。言語モデルが機能する有効なウィンドウ（範囲）には限りがあるため、30分前の情報が現在の文章の予測に影響を与えなくなることがあります。その結果、5分の会議録音の方が、たとえ同一条件でも90分の録音より正確になることがよくあります。

STTが価値を生み出す6つの実用的なユースケース

音声文字起こしは、もはやスマートフォンの便利機能に留まりません。多くの業界において、基礎的なインフラとなっています。

コンテンツ制作とジャーナリズム: インタビュー、記者会見、取材源の録音の書き起こし。60分のインタビューを録音した記者は、STTを使用することで、手動での書き起こしにかかる3〜4時間を節約できます。コストは人間なら1分あたり1〜3ドルかかるところ、STTなら約0.01〜0.10ドルで済みます。
アクセシビリティ: リアルタイム字幕は、会議、講義、ライブイベントにおいて聴覚障害のあるユーザーをサポートします。多くの地域では、かつて「プレミアム機能」だったものが、ADA（障害を持つアメリカ人法）などの規制により法的要件となっています。
医療文書: 医師が電子カルテにメモを口述します。2023年のスタンフォード医学部の研究によると、臨床用語でトレーニングされた医療用STTシステムは、医師の事務作業時間を1日あたり推定2時間削減しています。
カスタマーサービス分析: 数百万件のサポートコールを書き起こして分析し、トレンド、コンプライアンスの問題、トレーニングの機会を特定します。企業はSTTを使用して、月に10万時間以上の通話音声を処理することが可能です。
法務文字起こし: 裁判、証言録取、クライアントへのインタビュー。法務コンテキストでは、書き起こしの誤りが重大な結果を招く可能性があるため、精度のしきい値が非常に高く設定されています。
教育: 講義の書き起こし生成、検索可能な授業アーカイブの作成、音声よりもテキストでの学習を好む学生のサポート。

Fish Audio の STT エンジンがこれらの原理をどう応用しているか

音声文字起こしの仕組みとは何か。その答えを理論的に知ることも大切ですが、効果的なツールを選ぶことはまた別の話です。

Fish Audio の音声文字起こし（Speech to Text）エンジンは、上述した新世代のモデル、つまり多様な音声環境での自己教師あり学習を経たエンドツーエンドのディープラーニングシステムに基づいています。これらの技術的基盤が、どのように実用的な能力に変換されているかをご紹介します。

ノイズに強い処理能力: 前処理と音響モデルのステージは、電話の録音、部屋の残響、街頭のノイズ、会議の通話など、現実世界の音声でトレーニングされています。その結果、スタジオ録音と賑やかな歩道で録音したボイスメモとの性能差は、スマートフォンの標準的な音声入力のような一般的なツールよりも大幅に小さくなっています。実際、信頼できる結果を得るために、必ずしも完璧な録音環境を用意する必要はありません。

英語、中国語（普通話・広東語）、日本語、韓国語、および言語自動検出: Fish Audio のモデルは、前述の「ブレイクスルー3」である自己教師あり学習の恩恵を受けています。ラベル付きデータで微調整する前に、膨大な多言語音声データセットから音声パターンを学習することで、英語ほど大規模なトレーニングデータが存在しない言語でも高い精度を維持しています。日本語はもちろん、アラビア語、ポルトガル語、タイ語など、数十の言語が同じコアアーキテクチャでサポートされています。

高速な一括処理（バッチ処理）: 5段階のアーキテクチャは、音声セグメントごとに逐次処理するのではなく、並列で動作します。60分の録音を2分足らずで処理できるのは、システムが音声をリアルタイムで聴く必要がないからです。代わりに、ファイル全体を取り込み、すべてのセグメントを同時に処理します。

APIによる開発者アクセス: STTを自社製品に統合したいチームのために、Fish Audio API は同じエンジンを提供しています。リアルタイムストリーミングのためのミリ秒単位の低レイテンシと、ファイル処理のためのバッチエンドポイントの両方をサポートしており、コンシューマー向けツールを支えるのと同じモデルにプログラムからアクセスできます。

完全なオーディオループ

Fish Audio のSTTエンジンは、包括的な音声プラットフォームの半分を担っています。もう半分はテキスト読み上げ（Text to Speech）です。200万以上の音声、15秒の音声クローニング、そして13以上の言語サポートを提供しています。これらが組み合わさることで、話し言葉と書き言葉の双方向を単一のシステムで完結させる「完全なオーディオループ」が形成されます。

音声 → テキスト: 録音をアップロードして書き起こしを受け取る (fish.audio/speech-to-text)
テキスト → 音声: テキストを貼り付け、声を選んで、製品レベルの音声を生成する (fish.audio/text-to-speech)

コンテンツクリエイター、開発者、そして音声とテキストの両方を扱うチームにとって、双方向の変換を一つのプラットフォームに集約することは、文字起こしサービスと音声制作サービスを別々に利用することによる断片化を解消することに繋がります。

始め方

無料枠が用意されているため、実際の録音でテストするのに十分です。オーディオファイルをアップロードして、書き起こしの品質を自分の目で確かめ、現在のソリューションと比較してみてください。有料プランは月額11ドルから用意されています。料金の詳細は、こちらをご覧ください。

次に来るもの：2026-2027年のSTTの展望

次の3つのトレンドが、次世代の音声文字起こし技術を定義し、「音声文字起こしはどのように機能するのか」という問いに対する答えをさらに進化させるでしょう。

リアルタイムでの話者属性付き文字起こし: 現在のシステムでは話者分離（誰が何を言ったかのラベル付け）は後処理ステップとして実現されていますが、次世代ではライブ会話中にこれをリアルタイムで処理し、話者ごとの精度メトリクスや音声プロファイルに基づく即時の話者特定を実現します。

マルチモーダルな文脈理解: STTシステムは、音声とともに視覚的・文脈的な信号をますます取り入れるようになります。話者がスライドを使ってプレゼンしている場合、モデルは画面上のテキストを利用して専門用語の認識精度を向上させます。共有ドキュメントを参照しながら議論している場合は、そのドキュメントから語彙を引用して曖昧な単語を解決します。この進化により、「音声文字起こしの仕組み」は純粋な音声認識から、複数の信号を統合した理解へと拡大します。

パーソナライズされた語彙適応: 汎用的な言語モデルだけに頼るのではなく、STTシステムは、各ユーザーの業界用語、連絡先、製品名、話し方のパターンに適応する個別化された語彙プロファイルを構築するようになります。この機能はすでにデバイス上の入力システム（AppleやGoogle）で部分的に実装されていますが、次のステップは、デバイスをまたいで機能し、文字起こしを行うたびに進化するクラウドベースの適応技術です。

結論

音声文字起こしは、5つの機械学習レイヤーが積み重なって構成されています。それぞれのレイヤーは、人間の脳にとっては簡単でも、コンピュータが再現するのに何十年もかかったタスクを処理しています。「音声文字起こしはどのように機能するのか」という問いを紐解くには、まずこの階層化されたパイプラインを理解することが不可欠です。音声の前処理が信号をクリーンにし、特徴量抽出が音を数値に変え、音響モデルが数値を音へとマッピングし、言語モデルが音を可能性の高い文章へと変換し、最後に後処理が読みやすいテキストへと整えます。

約10年の間に、ディープラーニング、エンドツーエンドアーキテクチャ、そして膨大な音声データセットによる自己教師あり学習の進歩により、エラー率は43%から5%以下へと改善しました。残された精度差、つまり95%から99%への道のりは、アクセント、背景ノイズ、話者の重なり、そしてドメイン固有の語彙への対応にあります。

現実世界の音声条件下で、かつ多言語で信頼性の高いパフォーマンスを発揮するSTTを必要とする方にとって、Fish Audio はこの新世代の技術をブラウザから利用できる形で提供しています。録音をアップロードするか、 APIで接続してみてください。この記事で解説したアーキテクチャが、あなたの音声を2分以内に処理します。

よくある質問

音声文字起こしは、主に「音声の前処理」「特徴量抽出」「音響モデル」「言語モデル」「後処理」の5つの段階を経て行われます。まず音声をデジタル化して特徴を抽出し、それを音素にマッピングした後、文脈から最も適切な単語を選び出し、最後に句読点などを整えてテキスト化します。

背景ノイズや反響、話者とマイクの距離などが音声信号を歪ませるためです。また、強いアクセントや専門用語、複数の人の声が重なることも、AIが音を正しく識別する妨げとなり、エラー率を上昇させる要因となります。

Fish Audio は最新のエンドツーエンドのディープラーニングモデルを採用しており、ノイズに強く、日本語を含む多言語で高い精度を誇ります。また、API経由での利用や高速なバッチ処理に対応しており、60分の音声を約2分でテキスト化することが可能です。

リアルに感じる声を作成する

今日から最高品質のオーディオを生成し始めましょう。

無料でサインアップ

すでにアカウントをお持ちですか？ログイン

この記事を共有する

Kyle Cui

Kyle is a Founding Engineer at Fish Audio and UC Berkeley Computer Scientist and Physicist. He builds scalable voice systems and grew Fish into the #1 global AI text-to-speech platform. Outside of startups, he has climbed 1345 trees so far around the Bay Area. Find his irresistibly clouty thoughts on X at @kile_sway.

Kyle Cuiの他の記事を読む >