【语音识别】Listen, Attend and Spell（LAS）

AED 是近十年（当前2025.10）ASR 任务中很重要的技术，思想来源于手写生成和机器翻译，利用注意力机制，帮助编解码器定位到对应的字符。LAS 代码可以参考。参考文献。

weixin_45234741

822人浏览 · 2025-10-28 23:44:35

weixin_45234741 · 2025-10-28 23:44:35 发布

前言

本文是阅读论文《Listen, Attend and Spell(LAS)》的笔记，LAS 是一种端到端基于注意力机制的编码器-解码器（Attention-based Encoder Decoder， AED）结构。在 2015 年，传统 DNN-HMM 模块复杂，各模块单独训练优化，有误差累积和存储占用大等问题；CTC 有输出标签条件独立的不合理假设；RNN-T 训练内存占用高，在当时算力资源不富裕的条件下，效果并不惊艳。AED 方法提出后，迅速成为语音识别（ASR）领域富有前景的技术方向。LAS 与 [2] [3] 一起是 AED ASR 的开创性工作。我们从模型结构、训练、解码和重打分、实验结果 4 个方面介绍 LAS。

一、模型结构

LAS 是将 Fbank 特征映射到英文字母集合 $\mathbf{y} = (\langle\text{sos}\rangle ,y_1,\dots,y_S,\langle\text{eos}\rangle), y_i \in \{a,b,c,\dots,z,0,\dots,9,\langle\text{space}\rangle,\langle\text{comma}\rangle,\langle\text{period}\rangle,\langle\text{apostrophe}\rangle,\langle\text{unk}\rangle\}$ ， $\langle\text{sos}\rangle$ 是 start-of-sentence token， $\langle\text{eos}\rangle$ 是 end-of-sentence token。输出字符除了字母和数字，还有空格、逗号、句点、省略号和 Unknown。
如图 1 所示，编码器是一个双向的 LSTM，输入是 Fbank 特征 $\mathbf{x} = (x_1,\dots,x_T)$ ，输出是高级特征表示 $\mathbf{h} = (h_1,\dots,h_U), U≤T$ ，如下
$\mathbf{h} = Listen(\mathbf{x}) \tag{1}$

这里的 Listener 采用了金字塔结构，是一个降采样过程，本文实验表明，编码器对输入特征进行降采样可以更快地收敛到更好的结果，是本文相较其参考文献的一个创新点。每一层 pyramid BLSTM (pBLSTM) 将时间分辨率缩小 2 倍，共有 3 层 pBLSTM，故时间分辨率缩小了 8 倍，并且降采样操作可以降低计算复杂度。
请添加图片描述

图1 LAS 结构图

解码器由 Attend 和 Speller 组成，本质上是一个基于注意力机制的 LSTM 换能器（Transducer），它利用编码器的输出和之前解码的字符，生成下一个字符的概率分布 $\mathbb{P}(y_i | \mathbf{h}, y_{<i})$ 。具体计算如下
$c_i = AttentionContext(s_i, \mathbf{h}) \tag{2}$
$s_i = RNN(s_{i-1}, y_{i-1}, c_{i-1}) \tag{3}$
$\mathbb{P}(y_i | \mathbf{x}, y_{<i}) = CharacterDistribution(s_i, c_i) \tag{4}$

其中 $RNN ()$ 是 2 层的 LSTM，所以在每个时间步需要传递解码器状态（decoder state） $s_i$ ， $C ha r a c t erD i s t r ib u t i o n ()$ 是 MLP，通过最后的 softmax 得到概率分布。这里我们主要关注上下文向量（context vector） $c_i$ 的计算和使用。
$A tt e n t i o n C o n t e x t ()$ 计算如下，
$e_{i,u} = \langle \phi(s_i), \psi(h_u) \rangle \tag{5}$
$\alpha_{i,u} = \frac{exp(e_{i,u})}{\sum_u exp(e_{i,u})} \tag{6}$
$c_i = \sum_u \alpha_{i,u} h_u \tag{7}$
其中 $\phi()$ 和 $\psi()$ 是 MLP，将 $s_i$ 和 $h_u$ 映射到同一个语义空间，具有相同维度。如果 $s_i$ 和 $h_u$ 分布差异太大，算内积差异大，注意力向量 $\alpha_{i,u}$ 也会有影响。式 (7) 对 $h_u$ 加权求和，利用注意力机制，判断 $\mathbf{h}$ 中哪些向量对正确解码起作用。论文中训练收敛时， $\alpha_{i,u}$ 的分布很尖锐，证明 $\mathbf{h}$ 中只有个别向量对最终解码起关键作用。

二、训练

训练使得
$\max\limits_{\theta} \sum_i \log \mathbb{P}(y_i | \mathbf{x}, y^*_{<i}; \theta) \tag{8}$
最大，其中 $y^*_{<i}$ 是 ground truth 标签。
但是在推理的时候，模型参数随机初始化，前一个解码字符往往是错的，这对于一直照着标准答案训练的模型来说，推理效果会变差。所以作者提出 Sampling 策略，在训练过程中，90% 的训练给模型送 ground truth 标签，10% 从上一步解码出的字符分布中抽样一个字符，进行接下来的解码。目的是在训练中加入噪声，让模型具有抗干扰能力。

三、解码和重打分

解码是送入声学信号后，得到对应信号概率最大的字符
$\hat{y} = \arg \max_y \log \mathbb{P}(\mathbf{y}|\mathbf{x}) \tag{9}$
解码采用的是 Beam Search ，从 $\langle\text{sos}\rangle$ 开始解码，波束搜索宽度为 $\beta$ ，每一时间步，当前波束中的每个假设再多解一个字符，从中保留概率最大的 $\beta$ 条路径。如果遇到 $\langle\text{eos}\rangle$ ，则此路径从波束中去除，作为一条最终解码路径。
作者还实验了加入语言模型信息，利用大量纯文本数据训练语言模型 $\mathbb{P}_{LM}(\mathbf{y})$ :
$s(\mathbf{y}|\mathbf{x}) = \frac{\log \mathbb{P}(\mathbf{y}|\mathbf{x})}{|\mathbf{y}|_c} + \lambda \log \mathbb{P}_{LM}(\mathbf{y}) \tag{10}$
其中除以 $|\mathbf{y}|_c$ 是对字符个数做正则化， $\lambda$ 是超参数，通过在开发集上测试来确定。

四、实验结果

请添加图片描述

图2 LAS 实验结果

如图 2 所示，LAS 利用语言模型重打分，会有较大提升。同时，Sampling 策略也有小部分提升。但相比当时的 SOTA 模型、传统的 CLDNN-HMM 还有微小差距。

总结

AED 是近十年（当前2025.10）ASR 任务中很重要的技术，思想来源于手写生成和机器翻译，利用注意力机制，帮助编解码器定位到对应的字符。LAS 代码可以参考。

参考文献

[1]: Chan W , Jaitly N , Le Q V ,et al.Listen, Attend and Spell[J].Computer Science, 2015.DOI:10.48550/arXiv.1508.01211.
[2]: Chorowski J , Bahdanau D , Cho K ,et al.End-to-end Continuous Speech Recognition using Attention-based Recurrent NN: First Results[J].Eprint Arxiv, 2014.DOI:10.48550/arXiv.1412.1602.
[3]: Bahdanau D , Chorowski J , Serdyuk D ,et al.End-to-end attention-based large vocabulary speech recognition[J].IEEE, 2016.DOI:10.1109/ICASSP.2016.7472618.
[4]: https://github.com/Alexander-H-Liu/End-to-end-ASR-Pytorch

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

火山引擎 ADG 社区

OpenClaw 小白安装指南（Windows版）

（类似一个能自动执行任务的AI机器人），不是游戏。API Key只保存在你本地电脑的加密文件里，不会上传到任何地方。访问：https://github.com/miaoxworld/openclaw-manager/releases。: 一键安装脚本会自动安装Node.js 22+，如果失败，手动下载安装：https://nodejs.org/：在PowerShell中，鼠标右键就是粘贴，不需要按

火山引擎 ADG 社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla