语音转文本是如何工作的?——语音转文本转换的工作原理
大多数人认为语音转文本是一个简单的转换:输入音频,输出文本,就像以每分钟 150 个单词的速度查字典一样。实际上,即使是一个简单的口语句子也必须经过 4-6 层神经网络处理。每一层都解决了一个人类下意识完成但机器在约 5-15% 的情况下仍会误解的独特挑战。
根据斯坦福大学的年度 AI 指数,错误率已从 2013 年的 43% 下降到 2025 年清晰英语音频的 5% 以下。然而,这个头条数字掩盖了巨大的差异。将干净的录音室音频换成拥挤餐厅的电话录音,从英语切换到泰语,或者引入第二位发言者,错误率可能会迅速回升至 15-30%。要理解其中的原因,你必须深入了解这项技术的实际运作方式。
语音转文本的一句话定义(及深度解析)
从本质上讲,语音转文本 (STT),也称为自动语音识别 (ASR),是将口语转换为书面文本。这是一句话的定义。
深入解释:STT 系统首先捕获模拟音频信号并将其转换为数字表示;随后,系统提取与语音对应的模式,将这些声音映射到可能的单词和句子,并应用语言上下文来确定话语最可能的含义。每一步都涉及速度、准确性和计算成本之间的权衡。手机上的实时转录与医疗转录服务 24 小时交付周转之间的区别,最终归结为每个系统设计的权衡。总而言之,对于“语音转文本是如何工作的”这个问题的实际回答,很大程度上取决于环境、说话者的差异、音频质量和使用场景。
5 阶段工作流:声音和文本之间发生了什么
现代语音转文本系统,无论是在手机上运行还是在云端数据中心运行,通常都遵循五个核心阶段。每个阶段都解决一个特定的技术挑战。
阶段 1:音频预处理
原始音频是杂乱的。在识别开始之前,系统会清理并标准化信号。
- 降噪:系统将语音信号从背景噪音(如交通、音乐或重叠的对话)中分离出来。现代系统使用基于神经网络的源分离技术来区分说话者的声音与环境音。
- 归一化:调整音量级别,使轻声和响亮的说话都能产生一致的信号强度。
- 采样和分帧:连续的音频流被分成短帧,通常每帧 20-25 毫秒,帧之间有轻微重叠。每帧足够短,使得其中的音频信号可以被视为声学稳定的。
这个阶段是音频质量决定准确性的关键。干净的录音室录音为系统提供了一个良好的起点。而在汽车内通过蓝牙扬声器记录的电话通话会引入噪音,下游的每个阶段都必须对此进行补偿。
阶段 2:特征提取
一旦清理完毕,音频帧需要从原始波形数据转换为能够捕获语音特征的格式。系统不会直接处理原始声波;相反,它会提取特征——即代表每一小段音频听起来是什么样子的数值表示。
传统上,系统依赖于 梅尔频率倒谱系数 (MFCCs),它以一种近似于人耳感知音高和音调的方式来表示音频。可以将其想象为将照片转换为素描,保留基本轮廓的同时丢弃视觉噪声。
最近的系统,特别是那些建立在端到端深度学习系统之上的系统,绕过了像 MFCC 这样的人工特征,直接从原始音频中学习自己的表示。OpenAI 的 Whisper 和 Meta 的 wav2vec 都是这种方法的例子。它们已经证明,有了足够的训练数据,神经网络可以发现优于人工设计的特征表示。
阶段 3:声学建模
这是音频特征被映射到语音的地方。这一阶段的基本问题是:“在这个音频帧中存在哪些音素(语音的基本单位)?”
英语包含大约 44 个音素。例如,“cat”这个词由三个音素组成:/k/、/æ/、/t/。声学模型评估每帧提取的特征,并估计所有可能音素的概率分布。
两种架构在这一阶段占主导地位:
联结主义时间分类 (CTC):神经网络处理整个音频序列,并在每个时间步输出音素概率,不需要预先对齐的训练数据。CTC 是一项重大突破,因为它消除了训练期间手动将音频与转录文本对齐的需要。
基于注意力的编码器-解码器 (Transformer):这种方法借鉴了 GPT 等大语言模型背后的架构进行音频处理,使用编码器处理音频特征,并使用解码器一次生成一个文本令牌(token)。注意力机制学习音频的哪些部分对应于每个输出令牌。与 CTC 相比,这种方法能更有效地处理长程依赖,通常能为对话式语音生成更自然的转录。
2025-2026 年的大多数生产系统都采用了混合方法,将 CTC 对齐与基于 Transformer 的解码相结合,以平衡速度和准确性。
阶段 4:语言建模
声学建模告诉你存在什么声音。语言建模则根据上下文决定这些声音最可能代表哪些单词。
这就是为什么这个阶段很重要:考虑音素序列 /r/ /aɪ/ /t/,它可能对应“right”、“write”或“rite”。如果没有语言语境,系统就是在猜测。如果语言模型知道前面的词是“please write”,那么“write”的概率就接近于百分之百。
现代 STT 系统通常依赖两种类型的语言上下文:
- 统计语言模型:根据前 2-5 个单词预测下一个单词。此类模型高效且轻量,但上下文范围有限。
- 神经网络语言模型:处理整个句子(或段落)以估计单词概率。此类模型可以更有效地处理歧义短语、长程依赖和复杂的句子结构,但计算成本显著更高。
特定领域的词汇在语言模型中也起着至关重要的作用。通用语言模型会将“CRISPR-Cas9”转录为“crisper cast nine”,而针对生物医学数据进行微调的模型则能正确识别。这解释了为什么医疗、法律和金融领域的专业转录服务在技术术语方面仍然优于通用工具。
阶段 5:后处理和格式化
在阶段 3 和 4 之后,原始输出是一串没有标点、大小写和分段的小写单词。后处理将把这些原始输出转化为可用的文本。
- 标点插入:一个单独的模型根据声学线索(如音高变化和停顿)以及语言模式来预测应在何处插入句号、逗号和问号。
- 大小写:根据语言规则和命名实体识别,对专有名词、句首和缩写进行大写处理。
- 数字格式化:“Three hundred forty two dollars and fifty cents” 变为 “$342.50”。
- 去口语化:可以选择性地移除诸如“嗯”、“啊”之类的填充词以及赘语。
- 说话人日志(启用时):它确定多说话人录音中的哪些片段对应于每个个体。这是一个单独的模型,通过分析声音特征(包括音高、音色和语速)按说话人身份对音频片段进行聚类。
后处理通常决定了一个转录件是仅仅具有技术准确性,还是真正具有可用性。一个 95% 准确但没有标点的转录件比一个 92% 准确但格式正确的版本更难阅读。
从 43% 的错误率到 5%:改变一切的三大突破
语音识别研究自 20 世纪 50 年代以来一直在进行。如果你问“语音转文本为何能出色到驱动现代应用和设备”,答案在于过去十年中的三大突破,它们不仅提高了准确性,还使这项研究转化为了切实有用的技术。
突破 1:深度学习取代了隐马尔可夫模型 (2012-2015)。几十年来,STT 系统依赖于被称为 HMM(隐马尔可夫模型)的统计模型,并结合高斯混合模型。这些系统设计复杂,在对话式语音上的词错误率徘徊在 20-25% 左右。当深度神经网络取代 HMM 成为核心声学模型时,错误率在短时间内下降了 30%。这标志着 Siri 和 Google Voice 等产品从“有趣的玩具”进化为真正有用(尽管仍不完美)工具的转折点。
突破 2:端到端模型简化了系统 (2016-2020)。传统的 STT 系统需要为特征提取、声学建模和语言建模分别设计和独立训练模型。像 Google 的 LAS (Listen, Attend and Spell) 和 Meta 的 wav2vec 这样的端到端系统训练了一个直接将音频映射到文本的单一神经网络。这降低了工程复杂度,更重要的是,允许模型对整个过程进行联合优化,而不是孤立地优化每个阶段。
突破 3:在大规模无标注音频上进行自监督预训练 (2020 至今)。最新的突破来自于在数十万小时的音频上训练模型,而不依赖于人工标注的转录文本。例如,OpenAI 的 Whisper 模型是在 680,000 小时的多语言音频上训练的。Meta 的 wav2vec 2.0 证明,一个在无标注语音上预训练的模型,只需 10 分钟的标注数据进行微调,其表现就能优于在 100 倍标注数据上训练的系统。这种方法是现代 STT 系统在数十种语言中表现可靠的关键原因,其中包括许多标注训练数据有限的语言。
这三个转变是累积性的。现代生产级 STT 系统整合了所有这些技术:深度神经网络架构、端到端训练和自监督预训练。其结果是,对于干净的英语音频,错误率降至 5% 以下,即使在十年前被认为几乎无法解决的挑战性条件下,错误率也能保持在 8-15% 的范围内。
为什么在实践中准确率仍然差异巨大
如果技术如此先进,为什么你的手机有时还是会听错你的话?因为 5% 的错误率是在理想条件下测量的。在现实场景中,语音受到各种变量的影响,这些变量会迅速放大错误。
口音和方言差异。STT 模型主要针对广泛使用的语言的标准方言进行训练。在安静房间里录制的通用美式口音可能会产生近乎完美的转录。而在同样环境下,浓重的苏格兰口音或印度英语口音可能会使错误率升至 10-15%。地区方言和语码转换(在句子中切换语言)仍然是重大挑战。
音频质量下降。每一层压缩、背景噪音以及说话者与麦克风之间的距离都会引入失真。采样率为 44.1kHz 的麦克风直录与跨过会议桌由第二个设备捕获的免提录音有着本质的区别。
语音重叠。当两个人的声音重叠时,大多数 STT 系统无法为重叠部分生成可靠的输出。说话人分离模型正在改进,但区分声音,特别是当说话者的声音特征相似时,仍然是一个技术难题。
领域特定词汇。通用 STT 模型无法自动识别你公司的产品名称、行业缩写或领域术语。如果没有领域适应,生僻词会被发音相似的常用词所取代。
长文本性能下降。某些模型难以在非常长的录音中保持上下文。由于语言模型在有限的有效窗口内运行,30 分钟前的信息可能不再影响对当前句子的预测。因此,即使在相同的录音条件下,5 分钟的会议纪要通常也比 90 分钟的更准确。
STT 创造可衡量价值的 6 个现实应用场景
语音转文本不再仅仅是手机上的便捷功能。它已成为跨多个行业的基础设施。
- 内容创作与新闻报道:转录访谈、新闻发布会和素材录音。一位录制 60 分钟采访的新闻工作者使用 STT 可以节省 3-4 小时的人工转录时间,成本约为每分钟 1-3。
- 无障碍环境:实时字幕在会议、讲座和现场活动中为失聪和有听力障碍的用户提供支持。在许多司法管辖区,曾经被视为高级功能的东西现在已成为 ADA 及等效法规下的法律要求。
- 医疗文档:医生将笔记口述到电子健康记录中。根据 2023 年斯坦福医学的一项研究,受过临床词汇训练的医疗 STT 系统每天为医生节省约 2 小时的文档记录时间。
- 客户服务分析:转录并分析数百万个支持电话,以识别趋势、合规性问题和培训机会。企业每月能够使用 STT 系统处理超过 100,000 小时的通话音频。
- 法律转录:法庭程序、证词和客户面谈。在法律背景下,准确度门槛更高,因为法律转录中的错误可能会带来严重后果。
- 教育:生成讲座转录,创建可搜索的课堂录音档案,并为那些通过阅读文本比听音频学习效果更好的学生提供支持。
Fish Audio 的 STT 引擎如何应用这些原理
语音转文本是如何工作的?在理论上识别这个问题的答案是一回事,但选择一个有效的工具又是另一回事。
Fish Audio 的语音转文本引擎建立在上述同一代模型之上:具有跨多种音频环境的自监督预训练的端到端深度学习系统。以下是这些技术基础如何转化为实际能力。
抗噪处理。预处理和声学建模阶段在现实世界的音频上进行训练:电话录音、房间混响、街道噪音和电话会议。因此,录音室录音与在繁忙人行道上捕捉的语音备忘录之间的性能差距比手机听写等基础消费级工具小得多。在实践中,你不需要纯净的录音条件即可获得可靠的结果。
支持英语、普通话、粤语、日语和韩语,并具备语言自动检测功能。Fish Audio 的模型受益于上述突破 3 中提到的自监督预训练方法。通过在对标注转录文本进行微调之前,从海量的多语言音频数据集中学习语音模式,该系统在缺乏像英语那样广泛标注训练数据集的语言中也能保持准确性。同一核心架构还支持日语、阿拉伯语、葡萄牙语、泰语等数十种语言。
快速批量处理。五阶段架构在音频片段之间并行运行,而非顺序运行。一段 60 分钟的录音可以在不到 2 分钟内处理完毕,因为系统不需要实时收听音频。相反,它摄取完整文件并同时处理所有片段。
通过 API 提供开发者访问。对于将 STT 集成到自己产品中的团队,Fish Audio API 提供了同样的引擎,支持实时流媒体的毫秒级延迟和文件处理的批量端点。你可以通过编程方式访问支持该消费级工具的相同模型。
全链路音频闭环
Fish Audio 的 STT 引擎代表了综合语音平台的一半。另一半是 Text to Speech(文字转语音),提供 2,000,000 多个声音、15 秒声音克隆,并支持 13 种以上的语言。它们共同形成了一个完整的音频闭环,在单一系统中处理语音和书面内容的两个方向:
- 语音 → 文本:上传录音,接收转录件 (fish.audio/speech-to-text)
- 文本 → 语音:粘贴文本,选择声音,生成生产级音频 (fish.audio/text-to-speech)
对于在音频和文本两个领域工作的创作人员、开发者和团队来说,在单一平台内巩固这两个方向,可以消除由独立的转录和音频制作服务造成的碎片化。
开始使用
免费版额度足以用真实的录音进行测试。上传一个音频文件,亲自评估转录质量,并与你当前的解决方案进行比较。付费计划起价为每月 $11。完整的价格方案请点击这里。
未来展望:2026-2027 年 STT 的发展方向
三个趋势将定义下一代语音转文本技术,并进一步明确“语音转文本是如何工作的”这一问题。
实时区分说话人的转录。说话人日志(标记谁说了什么)在当前系统中可以作为后处理步骤实现。下一代将在实时对话中处理此问题,提供针对每个说话人的准确率指标,并根据声音特征即时识别说话人。
多模态语境。STT 系统将越来越多地结合音频之外的视觉和情境信号。如果演讲者正在展示幻灯片,模型将使用屏幕上的文本来提高对技术术语的识别。如果讨论参考了一份共享文档,模型将从该文档中提取词汇以解决歧义词。这种演变将“语音转文本是如何工作的”这一问题的答案从纯粹的音频识别扩展到了多信号理解。
个性化词汇适配。STT 系统将不再仅仅依赖通用的语言模型,而是建立个性化的词汇档案,以适应每个用户的行业特定术语、联系人、产品名称和说话模式。此功能已在端侧听写系统中部分实现(Apple 和 Google 都支持本地适配)。下一步是跨设备运行并随每次转录不断改进的云端适配。
结论
语音转文本转换由五层相互堆叠的机器学习组成,每一层都解决了一个人类大脑感觉毫不费力、但计算机花了数十年才接近完成的任务。要弄清“语音转文本是如何工作的”这一问题的答案,首先必须探索这个分层流水线。音频预处理清理信号。特征提取将声音转换为数字。声学建模将这些数字映射为语音。语言建模将声音转化为可能的句子。后处理将输出细化为可读的文本。
在大约十年的时间里,在深度学习、端到端架构以及在大规模音频数据集上进行自监督预训练的推动下,该技术的词错误率从 43% 提高到了 5% 以下。剩下的准确率差距,即 95% 到 99% 之间的差距,在于处理口音、背景噪音、重叠说话者和领域特定词汇。
对于任何需要在现实音频条件下和多种语言中表现可靠的 STT 的人,Fish Audio 以浏览器可访问的形式提供了当前这一代技术。上传录音或通过 API 连接,本文描述的架构将在不到 2 分钟内处理完你的音频。

Kyle is a Founding Engineer at Fish Audio and UC Berkeley Computer Scientist and Physicist. He builds scalable voice systems and grew Fish into the #1 global AI text-to-speech platform. Outside of startups, he has climbed 1345 trees so far around the Bay Area. Find his irresistibly clouty thoughts on X at @kile_sway.
阅读Kyle Cui的更多内容
