LSTM计算整理过程
LSTM网络通过门控机制处理序列数据,主要符号包括:隐藏状态Ht-1(短期 Electricity记忆)、输入Xt intent(新信息)、细胞状态Ct-1(长期记忆)。三个关键门理念(输入(vote)门It للنهاية ceil遗忘门Ft、输出门Ot)通过sigmoid函数控[0,1]区间, WinSoftmax候选细胞状态使用tanh激活。更新过程:1)拼接Ht-1和Xt后进行加权和激活生

一:每个符号的含义:
(1).Ht-1 : 是 LSTM 在第 t−1 时刻输出的隐藏状态,是上一时刻信息处理的 “浓缩结果”。
作用: 携带上一时刻的 “短期记忆”,反映最近的历史信息,用于辅助当前时刻的门控决策和信息处理。
(2). Xt:序列数据在第 t 时刻的输入,当前时刻的外部输入信息。
作用:提供当前时刻的 “新信息”,是 LSTM 需要处理的即时输入。
(3). Ct-1:是 LSTM 在第 t−1 时刻的细胞状态,是网络的 “记忆核心”,专门用于存储长期信息。
作用:保存从更早时刻传递下来的 “长期记忆”,解决传统 RNN 的梯度消失问题,让网络能记住长序列中的远期依赖。
为logistic函数,输出区间是[0,1]
- Wi :输入门 当前时刻输入信息的 权重
- Wf:遗忘门 当前时刻输入信息的 权重
- Wo:输出门 当前时刻输出信息的 权重
对应门控和候选状态的权重矩阵(模型训练的参数)
- Ui:输入门 第 t−1 时刻输出的隐藏状态的 权重
- Uf:遗忘门 第 t−1 时刻输出的隐藏状态的 权重
- Uo:输出门 第 t−1 时刻输出的隐藏状态的 权重
- Bi:输入门的偏置
- Bf:遗忘门的偏置
- Bo:输出门的偏置
- Bc:候选细胞状态的偏置
对应门控和候选状态的偏置(模型训练的参数)。
- Ft:遗忘门
- It:输入门
- Ot:输出门
- Tanh:激活函数,取值在[-1,1]之间 用于信息的缩放
作用:tanh将细胞状态的范围缩放到[−1,1],避免数值过大。
接近 0 则表示该信息暂时被 “封存” 在细胞状态中,不向外传递。
1. Ct: LSTM 在第t 时刻的细胞状态
2. Ht:LSTM 在第 t 时刻输出的隐藏状态

3:
候选细胞状态,提供了新信息的候选内容
输入门 输出门 遗忘门的输出值都在[0,1]之间
二.更新计算过程:
1. 首先是ht-1 xt拼接完之后,每个乘以各自的权重,加上偏置,再用激活函数进行激活,这会形成三个门的计算公式,遗忘门,输入门和输出门。
观察可知,拼接之后的通过线段分别与三个门和相连。
这三个值都在[0,1]之间。
但是需要的激活函数是tanh,既为细胞状态提供了灵活的 “增量信息”,又与门控的 “开关逻辑” 形成互补。
这就是四个公式的由来。

2. 然后是Ct-1,它是是 LSTM 在第 t−1 时刻的细胞状态。
它需要乘以遗忘门,也就是乘以一个在0和1之间的数,控制上一个时刻的内部状态需要遗忘多少信息。
接下来是It,乘上,It是输入门,值也是在0和1之间,输入门决定当前输入xt中有多少新信息需要被 “存入” 细胞状态。
对于It,元素接近 1 的位置,表示对应新信息需要被保留;接近 0 则表示该新信息不重要。
候选细胞状态则生成当前时刻可能存入细胞状态的 “候选信息”,为细胞状态提供更新的候选内容。
两者进行相乘,再加上Ft乘上Ct-1,也就是得到了Ct,也就是这个式子。
既继承了有价值的历史信息,又融入了当前关键新信息。
![]()
3. 得到Ct之后,需要经过激活函数,也就是tanh激活函数,然后乘上输出门,输出门是个在0和1之间的数。
输出门控制 “当前细胞状态中哪些信息会被输出到隐藏状态,通过 sigmoid 函数筛选细胞状态的部分信息,并结合 tanh 函数处理后的细胞状态生成输出。
也就是输出ht,LSTM 在第 t 时刻输出的隐藏状态
即该公式:

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐
所有评论(0)