ポッドキャスト文字起こしツール — Fish Audioでポッドキャストを文字起こしする方法

Fish Audioのポッドキャスト文字起こしツールは、感情タグ、話者ラベル、タイムスタンプを自動で付与しながら音声をテキストに変換し、SRT、VTT、またはJSON形式でエクスポートできます。無料枠もあり、コードの知識は不要です。

2026年3月 | Fish Audio STTが fish.audio/app/speech-to-text で公開されました

文字起こし（トランスクリプト）なしで公開されているポッドキャストのエピソードは、本来得られるはずのトラフィックを逃しています。文字起こしがあれば、エピソードはGoogleでの検索対象になり、ワンクリックでショーノートを作成でき、YouTubeやウェブサイトなどの配信プラットフォーム向けの字幕も自動生成できます。また、耳の不自由な視聴者にとっても、コンテンツのアクセシビリティが向上します。ポッドキャスト編集者、メディアチーム、YouTubeクリエイターは、SEOコンテンツの生成、検索可能なアーカイブの作成、アクセシブルなエピソードページの作成のために文字起こしを活用しています。多くの文字起こしツールは、単なるテキストの羅列を出力して終わりですが、Fish Audioのポッドキャスト文字起こしツールはそれ以上の機能を提供します。すべてのトランスクリプトには、自動の感情・パラ言語タグ、話者ラベル、タイムスタンプが付与され、3つの形式でエクスポート可能です。このガイドでは、アップロードからエクスポートまでの全ワークフローを約3分で解説します。

ポッドキャストの文字起こしを無料で開始する →

優れたポッドキャスト文字起こしツールの条件とは？

ツールを選ぶ前に、何を評価すべきかを知っておくと役立ちます。優れたポッドキャスト文字起こしツールは、以下の4つの要素を備えている必要があります：

高い文字起こし精度：多様なアクセント、音質、録音環境に対応していること
話者識別：トランスクリプト内でホストとゲストを区別できること
複数のエクスポート形式：最低でもビデオ字幕用のSRT、理想的にはVTTやJSONにも対応していること
透明性が高く手頃な価格設定：実際のエピソードで活用できる実用的な無料枠があること

Fish Audioのポッドキャスト文字起こしツールは、100以上の言語に対応し、24種類の音声・動画形式をサポートしています。また、手動のアノテーションなしで、感情やパラ言語イベントをインラインで自動タグ付けします。この音声文字変換（STT）モデルは、会話調の音声や、ポッドキャスト、インタビュー、ライブディスカッションなどの複数人の録音に最適化されています。実際の仕組みを詳しく見ていきましょう。

Fish Audioでポッドキャストを文字起こしする方法 — ステップ・バイ・ステップ

所要時間： 約3分 必要なもの： 音声ファイル（MP3、MP4、WAV、M4Aなど） 出力： タグ付きトランスクリプト + エクスポート用字幕ファイル

ステップ 1 — Fish Audio STTを開く

fish.audio/app/speech-to-text にアクセスします。タスク履歴が表示され、以前の文字起こし結果がファイル名、日付、ステータス、使用クレジット、話者数とともにリストアップされています。Create task（タスク作成）をクリックして、新しい文字起こしを開始します。

完了した文字起こしタスクのリスト（クレジットと話者数が表示されている）

ステップ 2 — エピソードをアップロードして話者を設定する

文字起こしタスク作成ウィンドウで、音声または動画ファイルをアップロードします。Fish Audioは、MP3、MP4、WAV、FLAC、M4A、OGG、MOV、AVI、WEBMなど、主要な形式をすべてサポートしています。

number of speakers（話者数）の設定では、録音に何人含まれているか不明な場合は「Auto」のままにします。Fish Audioが自動的に話者を検出します。ホストとゲストの2人と分かっている場合は、手動で設定することでより正確な話者ラベルが得られます。

確定する前に、インターフェース上で予測される再生時間、請求対象時間、およびこのタスクに必要な推定クレジットが表示されます。Create task をクリックするまでクレジットは消費されません。

ファイルアップロード、話者数設定、推定クレジットを表示するタスク作成ダイアログ

ステップ 3 — トランスクリプトを確認する

タスクが完了したら、Open viewer（ビューアを開く）をクリックします。トランスクリプトは、SPK/TAGS（話者ラベル）、TIME（タイムスタンプ範囲）、TEXT（インラインタグ付きテキスト）の3列で表示されます。

各セグメントは秒単位でタイムスタンプが付与されています。感情やパラ言語イベントは、テキスト内に紫色のインラインタグとして表示されます。[pause]（一時停止）、[sigh]（ため息）、[emphasis]（強調）、[breath]（息継ぎ）などが、録音内で実際に発生した箇所に挿入されます。

セグメントをクリックすると、その部分の音声をブラウザ上で直接再生できます。これにより、ファイル全体を探し回ることなく、精度を確認したり特定の瞬間をチェックしたりすることが容易になります。

右側のコントロールパネル（Controller）には、総再生時間、検出された話者数、セグメント数、および音声分離（Voice separation）と音声イベントタグ付け（Tag audio events）が有効であることが表示されます。

話者ラベル、タイムスタンプ、インライン感情タグ（pause, sighなど）を表示するビューア

ステップ 4 — お好みの形式でエクスポートする

コントロールパネルの右下にある Export（エクスポート）をクリックします。形式を選択し、ダウンロード前にエクスポートオプションを設定します。

形式選択を表示するエクスポートオプションパネル

SRT、VTT、JSON形式の選択肢を表示するエクスポートダイアログ

最初のエピソードを文字起こししてみませんか？無料の文字起こしタスクを開始する →

自動タグ付け — 他のツールが見落とすものをFish Audioは捉える

これがFish Audioのポッドキャスト文字起こしツールが、他の代替ツールと最も明確に異なる点です。

質問に答える前にため息をついたり、文の途中で笑ったり、強調のために間を置いたり、息を吸ったりする際、標準的な文字起こしツールはこれらすべてを無視します。結果として得られるのは、それらの情報を削ぎ落とされた言葉だけです。

Fish Audioは、これらのイベントをトランスクリプトの発生箇所にインラインタグとして埋め込みます。これらのタグは自動的に生成され、手動のアノテーションや後処理は不要です。コントロールパネルでは、デフォルトで Tag audio events: On になっています。

タグ付けされる内容

パラ言語 — 発話と同時に発生する非言語音。

感情 — 文脈や韻律から捉えられた、話し方の情緒的なトーン。

ポッドキャスターにとっての重要性

ポッドキャストのワークフローにおいて、タグには3つの実用的な目的があります。第一に、ショーノートのソースとしてより有用になります。[laugh]（笑い）や [pause]（間）が含まれるトランスクリプトは、単なるテキストファイルよりも編集者に豊かな素材を提供します。第二に、長い録音のナビゲーションが速くなります。[sigh]（ため息）や [emphasis]（強調）をスキャンすることで、再試聴することなく感情的に重要な場面を見つけ出すことができます。第三に、そして最も特徴的な点として、これらのタグは Fish Audio の TTS（テキスト読み上げ）モデルと互換性があります。つまり、トランスクリプトを再フォーマットすることなく、そのまま音声制作ワークフローに戻すことができるのです。

タグの動きを実際に見てみましょう。最初の音声ファイルをアップロードする →

エクスポート形式の解説 — どれが必要？

Fish Audio STT は3つのエクスポート形式をサポートしています。どれを使用するかは、トランスクリプトを次にどう活用するかによります。

SRT は、動画コンテンツを配信するほとんどのポッドキャスターにとって最適な選択肢です。最も広くサポートされている字幕形式で、YouTube、Premiere Pro、Final Cut Pro、およびほとんどの動画プラットフォームと互換性があります。

VTT (WebVTT) はウェブネイティブな形式です。自身のサイトに動画を埋め込み、インラインでの単語タイミングが必要な場合に使用します。

JSON は、字幕変換を行わない生の STT 出力を提供します。トランスクリプトを他のツールに取り込んだり、カスタムツールを構築したりする場合に使用します。

エクスポートオプション

SRT または VTT をエクスポートする際、4つの追加設定が可能です：

Include tags（タグを含める） — [pause] や [sigh] などのタグを字幕ファイルに保持します。クリーンな字幕が必要な場合はオフに、表現豊かなメタデータを残したい場合はオンにします。
Include speaker（話者を含める） — 各字幕キューの前に、検出された話者ラベル（SPK_0, SPK_1）をプレフィックスとして付けます。複数人が出演するエピソードに便利です。
Punctuation（句読点） — 出力テキストに句読点を保持します。さらに後処理を行うためにクリーンなトークンストリームが必要な場合はオフにします。
Split mode（分割モード） — 「Segment」（既存の境界を維持）または「Max words」（単語数、句読点、話者の変化で再グループ化）を選択できます。1キューあたり最大7単語に制限した「Max words」は、早口の音声に対してより読みやすい字幕を生成する傾向があります。

話者検出 — ホストとゲストを判別する

ポッドキャストのインタビューやパネルディスカッションにおいて、話者検出は最も便利な機能の一つです。Fish Audioは、複数人の録音における話者を自動的に分離します。トランスクリプトビューアの各セグメントには SPK_0、SPK_1 などのラベルが付けられ、これらは音声から検出された個別の声に対応しています。

タスク作成時に、number of speakers を「Auto」にするか、手動で設定できます。正確な人数を設定すると、特に一方の話し手がもう一方より著しく声が小さい場合などに、より正確な話者の区切りが得られる傾向があります。

エクスポート時に Include speaker を有効にすると、各字幕キューの前に話者ラベルが付与されます。これにより、話者ごとにトランスクリプトを検索、編集、再フォーマットすることが容易になり、ショーノート用の引用を抜き出したり、重要なやり取りに絞って編集したりする際に役立ちます。

注：話者検出と話者ラベル付きトランスクリプトは、Fish Audio のウェブインターフェースで利用可能です。「Include speaker」を有効にすると、SRT、VTT、JSON 形式でのエクスポート時にも話者ラベルが保持されます。

ポッドキャストの文字起こしにはいくらかかる？

Fish Audio STT は、処理された音声の分数に応じて 1分あたり300クレジット で課金されます。

無料アカウントには毎月8,000クレジットが付与され、これは約26分間の音声に相当します。これにより、短いエピソードやいくつかのインタビューセグメントをカバーできます。

ウェブインターフェースでは、タスクを確定する前に正確な推定クレジットが表示されるため、不意な出費の心配はありません。

チームや大量制作を行う場合は、より多くのクレジットが含まれる有料プランをご利用ください。価格の詳細は fish.audio/plan/ でご確認いただけます。

次のポッドキャストエピソードを数分で文字起こししましょう。無料で文字起こしを開始する →

Fish Audio と他のポッドキャスト文字起こしツールの比較

最高のポッドキャスト文字起こしツールを探している多くのポッドキャスターにとって、プレーンテキストのトランスクリプトが必要なのか、あるいは感情タグやマルチフォーマットエクスポートのような豊富なメタデータが必要なのかが選択の基準になります。Fish Audioと他の主要なオプションの比較は以下の通りです：

データソース: Otter.ai, Happy Scribe, Adobe Podcast (2026年3月時点)

ほとんどのポッドキャスト文字起こしツールは、プレーンテキストの出力に重点を置いています。Fish Audioは、トランスクリプト内に感情やパラ言語タグを直接埋め込むことができる数少ないツールの一つであり、さらに Studio 統合を通じて文字起こしを音声制作ワークフローに接続できる数少ないツールです。

ショーノートやSEOコンテンツ作成のためにクリーンなプレーンテキストが必要なだけであれば、どのツールでも機能します。タグ付きのトランスクリプト、多彩なエクスポート形式、あるいは文字起こしから音声制作へのシームレスな移行が必要な場合は、Fish Audio が最も完成度の高い選択肢となります。

次のステップ — トランスクリプトから Studio へ

タグ付きのトランスクリプトは、単なるドキュメントではありません。それは「どのように聞こえるべきか」をすでに知っている台本です。

Fish Audio がポッドキャストのトランスクリプトに埋め込むタグ — [calm, reflective]（穏やか、内省的）、[breath]（息継ぎ）、[determined]（断固とした）、[pause]（間） — は、Fish Audio の S2 TTS モデルと同じ形式を使用しています。つまり、トランスクリプトを再フォーマットすることなく、そのまま音声生成パイプラインに投入できるのです。

Fish Audio Studio はこれをさらに進化させます。Studio では、タグ付きのスクリプトが編集可能な音声プロジェクトになります。チャプターごとの編集、ボイスモデルの入れ替え、単語レベルでの話し方の調整、マルチトラック音声の制作が、元の録音の表現豊かなメタデータを保持したまま行えます。

感情ラベル付きのタグ付きトランスクリプトとマルチトラック音声タイムラインを表示する Fish Audio Story Studio

STTから Studio への直接インポート機能は近日公開予定です。 トランスクリプト形式はすでに互換性があり、STTの出力タグは Studio が読み取るタグと同じです。機能がリリースされれば、インポートはワンステップで完了します。

ポッドキャストの文字起こしを無料で開始する → — 制作の準備ができている方は Fish Audio Studio を試すをご覧ください。

関連リンク:

Sabrina Shu

Sabrina is part of Fish Audio's support and marketing team, helping users get the most out of AI voice products while turning launches, updates, and customer insights into clear, practical content.

Sabrina Shuの他の記事を読む