播客转录工具 — 如何使用 Fish Audio 转录您的播客
Fish Audio 的播客转录工具可将音频转换为文本,并带有自动情感标签、发言人标记和时间戳,随后可导出为 SRT、VTT 或 JSON 格式。提供免费额度。无需代码。
2026 年 3 月 | Fish Audio STT 现已在 fish.audio/app/speech-to-text 上线
您发布的每一集没有转录文本的播客都在流失潜在流量。转录文本能让您的剧集在 Google 上被搜索到,只需点击一下即可生成节目笔记 (Show notes),并能自动为 YouTube、您的网站或任何分发平台生成字幕。对于听障受众,它还能提高内容的无障碍性。播客编辑、媒体团队和 YouTube 创作者依靠转录文本来生成 SEO 内容、可搜索的存档以及易于访问的剧集页面。大多数播客转录工具只是提供一大堆纯文本就完事了。Fish Audio 的播客转录工具更进一步:每一份转录文本都带有自动情感和旁言语 (paralanguage) 标签、发言人标记、时间戳以及三种导出格式。本指南将带您在三分钟内完成从上传到导出的完整流程。
什么是优秀的播客转录工具?
在选择任何转录工具之前,了解您的评估标准会有所帮助。一个优秀的播客转录工具应该提供以下四点:
- 高转录准确率:涵盖不同的口音、音频质量和录制环境
- 发言人识别:以便您在转录文本中区分主持人和嘉宾
- 多种导出格式:至少包含用于视频字幕的 SRT,理想情况下还应包含 VTT 和 JSON
- 透明且实惠的价格:提供真正可用于完整剧集的免费额度
Fish Audio 的播客转录工具支持 100 多种语言,接受 24 种音视频格式,并能自动在行内标记情感和旁言语事件——无需任何手动标注。该语音转文本模型针对对话音频和多发言人录音(如播客、访谈和现场讨论)进行了优化。以下是其实际操作方法。
如何使用 Fish Audio 转录您的播客 — 逐步指南
所需时间: 约 3 分钟 所需工具: 音频文件(MP3, MP4, WAV, M4A 等) 输出: 带有标记的转录文本 + 准备好导出的字幕文件
第 1 步 — 打开 Fish Audio STT
访问 fish.audio/app/speech-to-text。您将看到您的任务历史记录——列出了所有之前的转录任务,包括文件名、日期、状态、消耗积分和发言人数量。点击 Create task 开始新的转录。
第 2 步 — 上传您的剧集并设置发言人
在“Create transcription task”窗口中,上传您的音频或视频文件。Fish Audio 支持所有主流格式 — MP3、MP4、WAV、FLAC、M4A、OGG、MOV、AVI、WEBM 等。
在 number of speakers(发言人数量)下,如果您不确定录音中有多少人,请保持“Auto”设置。Fish Audio 将自动检测发言人。如果您知道确切人数(例如标准的主持人加嘉宾格式为两人),可以手动设置以获得更准确的发言人标记。
在您确认之前,界面会显示预计时长、计费分钟数以及该任务的预估积分。在您点击 Create task 之前不会产生费用。
第 3 步 — 检查您的转录文本
任务完成后,点击 Open viewer。转录文本分三列显示:SPK/TAGS(发言人标记)、TIME(时间戳范围)和 TEXT(带有内联标签的转录文本)。
每个片段的时间戳精确到秒。情感和旁言语事件以紫色内联标签的形式直接出现在文本中——您会在录音中发生这些事件的确切位置看到 [pause]、[sigh]、[emphasis] 和 [breath] 等标签。
点击任何片段即可直接在浏览器中播放该部分音频。这使得验证准确性或抽查特定时刻变得非常容易,无需拖动进度条浏览整个文件。
右侧的 Controller(控制器)面板显示摘要:总时长、检测到的发言人数量、片段数量,并确认语音分离 (voice separation) 和标记音频事件 (Tag audio events) 均已开启。
第 4 步 — 以您的格式导出
点击 Controller 面板右下角的 Export。在下载之前选择您的格式并配置导出选项。
准备好转录您的第一集了吗? 开始免费转录任务 →
自动标签 — Fish Audio 捕捉到了其他工具遗漏的内容
这就是 Fish Audio 的播客转录工具与其他替代方案最明显的不同之处。
当有人在回答问题前叹气、在句中发笑、为了强调而停顿或发出明显的呼吸声时——标准的转录工具会忽略这一切。您得到的只是被剥离了所有细节的文字。
Fish Audio 将这些事件作为内联标签嵌入到转录文本中发生的确切位置。这些标签是自动生成的——无需手动标注,也无需后期处理。Controller 面板默认显示 Tag audio events: On。
哪些内容会被标记
旁言语 (Paralanguage) — 伴随言语发生的非言语声音。
情感 (Emotion) — 从语境和韵律中捕捉到的表达语调。
为什么这对播客主很重要
对于大多数播客工作流,标签具有三个实际用途。首先,它们使您的转录文本作为节目笔记 (Show notes) 素材来源时更有价值——捕捉了 [laugh] 和 [pause] 的转录文本比平铺直叙的文本文件能为您的编辑提供更丰富的素材。其次,它们使浏览长录音变得更快——您可以扫描 [sigh] 或 [emphasis] 时刻,无需重新收听即可找到剧集中具有情感意义的部分。第三,也是最独特的一点,这些标签与 Fish Audio 的 TTS 模型兼容——这意味着转录文本可以直接反馈到语音制作流程中,无需任何重新格式化。
想看看标签的实际效果吗? 上传您的第一个音频文件 →
导出格式详解 — 您需要哪一种?
Fish Audio STT 支持三种导出格式。使用哪一种取决于您接下来要如何处理转录文本。
SRT 是大多数分发视频内容的播客主的正确选择。它是支持最广泛的字幕格式——兼容 YouTube、Premiere Pro、Final Cut Pro 和大多数视频平台。
VTT (WebVTT) 是网页原生格式——当您在自己的网站上嵌入视频并需要内联单词计时时使用它。
JSON 为您提供原始的 STT 输出,不进行字幕转换。如果您要将转录文本输入到其他工具或构建自定义功能,请使用此格式。
导出选项
导出 SRT 或 VTT 时,您可以进行四项额外设置:
- 包含标签 (Include tags) — 在字幕文件中保留
[pause]和[sigh]等括号内的事件。如需干净的字幕,请关闭此项;如需保留表达性元数据,请保持开启。 - 包含发言人 (Include speaker) — 在每个字幕提示前加上检测到的发言人标记 (SPK_0, SPK_1)。适用于多发言人剧集。
- 标点符号 (Punctuation) — 在导出的文本中保留标点符号。如果您正在进行进一步处理,请关闭此项以获得更干净的 Token 流。
- 分割模式 (Split mode) — 在 Segment(保留现有的 STT 边界)或 Max words(按字数、标点符号和发言人更改重新组合提示)之间进行选择。对于语速较快的演讲,限制每条提示最多 7 个单词的 Max words 模式通常会生成更具可读性的字幕。
发言人检测 — 区分主持人和嘉宾
对于播客访谈和小组讨论,发言人检测是播客转录工具能提供的最有用功能之一。Fish Audio 会自动分离多发言人录音中的声音。转录查看器中的每个片段都被标记为 SPK_0、SPK_1 等——对应音频中检测到的不同声音。
创建任务时,您可以将 number of speakers 保持在 Auto 或手动设置。设置确切人数通常会产生更清晰的发言人边界,尤其是在一个发言人声音明显比另一个小的录音中。
导出时,启用 Include speaker 会将发言人标记作为前缀添加到每个字幕提示中。这使得按发言人搜索、编辑或重新格式化转录文本变得非常简单——如果您正在为节目笔记提取引用或将转录文本剪辑为关键交流内容,这将非常有用。
注意:发言人检测和带有发言人标记的转录文本在 Fish Audio Web 界面中可用。开启 Include speaker 后,发言人标记会随 SRT、VTT 和 JSON 格式导出。
转录播客需要多少钱?
Fish Audio STT 按处理的音频分钟计费,价格为 每分钟 300 积分。
免费账户每月可获得 8,000 积分 ——足以处理约 26 分钟的音频。这可以覆盖一集短视频或几个采访片段。
Web 界面会在您确认任务之前显示准确的预估积分,因此不会有意外支出。
对于团队或高产量制作,付费计划包含更大的积分池。请在 fish.audio/plan/ 查看完整价格详情。
在几分钟内转录您的下一集播客。 开始免费转录 →
Fish Audio 与其他播客转录工具的对比
许多寻找最佳播客转录工具的播客主发现,正确的选择取决于他们需要纯文本转录还是带有情感标签和多格式导出的更丰富元数据。以下是 Fish Audio 与其他流行选项的对比:
数据源自 2026 年 3 月的 Otter.ai、Happy Scribe 和 Adobe Podcast。
大多数播客转录工具专注于提供纯文本输出。Fish Audio 是少数几个直接在转录文本中嵌入情感和旁言语标签的工具之一,也是少数几个通过 Studio 集成将转录与语音制作流程连接起来的工具之一。
如果您只需要干净的纯文本用于节目笔记或 SEO 内容,这些工具都可以胜任。如果您需要带有标签的转录、多格式导出或从转录进入语音制作的路径,Fish Audio 是最完整的选择。
下一步 — 从转录到 Studio
带有标签的转录文本不仅仅是一份文档。它是一个已经知道该如何发声的剧本。
Fish Audio 嵌入在播客转录文本中的标签 — [calm, reflective]、[breath]、[determined]、[pause] — 使用与 Fish Audio 的 S2 TTS 模型相同的格式。这意味着转录文本可以直接进入语音生成流水线,无需任何重新格式化。
Fish Audio Studio 进一步扩展了这一功能。在 Studio 中,带有标签的脚本变成了完全可编辑的语音项目:您可以按章节编辑、更换语音模型、在单词级别调整表达方式,并制作多轨音频 — 同时保留原始录音中所有的表达性元数据。
STT 到 Studio 的直接导入是即将推出的功能。 转录格式已经兼容——您的 STT 输出中的标签与 Studio 读取的标签相同。该功能发布后,导入将只需一个步骤。
开始免费转录您的播客 → —— 或者如果您已准备好开始制作,请 探索 Fish Audio Studio。
相关链接:
Sabrina is part of Fish Audio's support and marketing team, helping users get the most out of AI voice products while turning launches, updates, and customer insights into clear, practical content.
阅读Sabrina Shu的更多内容

