[具身智能-296]:什么是语音识别,其输入、处理、输出
·
语音识别(Automatic Speech Recognition, ASR),也称为语音转文本(Speech-to-Text),是一种将人类的语音信号转换为相应文本或指令的技术。其核心目标是让机器能够“听懂”人类语言,实现更自然的人机交互。
整个语音识别过程可以清晰地分为输入、处理、输出三个阶段。
🎙️ 输入:声音信号的捕获
输入阶段的核心任务是捕获声音并将其数字化。
- 声波转换:当你对着麦克风说话时,麦克风会将声波(模拟信号)转换成连续的电信号。
- 数字化:系统以极高的频率(例如每秒16000次)对这个电信号进行采样,将每个采样点的振幅值记录下来,形成一串离散的数字序列。这个过程将连续的模拟信号转换成了计算机可以处理的数字信号。
⚙️ 处理:从数字信号到文本的解码
这是语音识别最核心、最复杂的环节,通常包含以下几个步骤:
-
信号预处理
原始的音频数字信号包含大量噪声和无效信息。预处理旨在提升信号质量,为后续分析做准备。- 降噪:滤除背景噪音,如发动机声、环境杂音等。
- 分帧:将连续的音频流切割成许多微小的片段(帧),每帧时长通常为20-30毫秒。
- 预加重与加窗:通过特定算法提升信号中的高频部分,并减少因信号截断带来的频谱泄漏,使特征更突出。
-
特征提取(原始的模拟信号中的语言特征向量,这是关键!并没有把原始的模拟的语音时序信号直接放到模型中翻译成单词!!!)
这一步的目标是提取出能代表语音本质特征的信息,舍弃无关细节。最常用的技术是梅尔频率倒谱系数(MFCC)。- 模拟人耳:MFCC通过一系列处理(如傅里叶变换、梅尔滤波器组),模拟人耳对不同频率声音的非线性感知特性,最终将每一帧音频信号压缩成一组(通常是13个)能代表其声学特征的系数。
- 特征向量:经过提取,一段语音就变成了一系列随时间变化的特征向量,它们是后续模型识别的“原料”。
-
声学模型(特性向量与音素的对应关系)
声学模型是声音与语言基本单元(音素)之间的“翻译官”。它通过学习海量的语音数据,计算出输入的特征向量最可能对应哪个音素。- 音素识别(音素是区分词义的最小声音单位。例如,英文单词“cat”由/k/、/æ/、/t/三个音素构成。
- 深度学习:现代声学模型主要采用深度学习技术,如Transformer、RNN-T等架构。这些模型能够非常精准地捕捉声音特征与音素之间的复杂关系,并输出每个音素出现的概率。
-
语言模型(音素与单词或字的对应关系)
仅靠声学模型可能会混淆发音相似的词(如“公式”和“公事”)。语言模型的作用就是利用上下文信息来解决这类歧义,确保输出的文本通顺、合理。- 预测词序:语言模型基于海量文本数据训练,学习了词汇、语法和常见的词语搭配模式。它能判断在特定语境下,哪个词或词序列出现的可能性更高。
-
解码
解码器是整个系统的“决策者”。它结合声学模型和语言模型的预测结果,通过复杂的搜索算法(如束搜索),从所有可能的词序列中找出概率最高、最匹配当前语音的那一个作为最终结果。
📝 输出:结构化的文本
处理阶段的最终结果会被转化为结构化的文本输出。
- 文本生成:解码器输出的词序列被组合成完整的句子。
- 后处理:系统可能会进行一些优化,例如智能添加标点符号、将数字和日期格式规范化(如将“五点三十”转换为“5:30”),最终生成易于阅读的文本。
更多推荐

所有评论(0)