一:每个符号的含义:        

        (1).Ht-1 : 是 LSTM 在第 t−1 时刻输出的隐藏状态,是上一时刻信息处理的 “浓缩结果”。  

作用: 携带上一时刻的 “短期记忆”,反映最近的历史信息,用于辅助当前时刻的门控决策和信息处理

        (2). Xt:序列数据在第 t 时刻的输入当前时刻的外部输入信息。   

作用:提供当前时刻的 “新信息”,是 LSTM 需要处理的即时输入。

        (3). Ct-1:是 LSTM 在第 t−1 时刻的细胞状态,是网络的 “记忆核心”,专门用于存储长期信息。

作用:保存从更早时刻传递下来的 “长期记忆”,解决传统 RNN 的梯度消失问题,让网络能记住长序列中的远期依赖。

为logistic函数,输出区间是[0,1]

  1.  Wi :输入门  当前时刻输入信息的  权重
  2.  Wf:遗忘门  当前时刻输入信息的 权重
  3.  Wo:输出门  当前时刻输出信息的  权重

对应门控和候选状态的权重矩阵(模型训练的参数)

  1.  Ui:输入门  第 t−1 时刻输出的隐藏状态的 权重
  2.  Uf:遗忘门   第 t−1 时刻输出的隐藏状态的 权重
  3.  Uo:输出门   第 t−1 时刻输出的隐藏状态的 权重

  1.  Bi:输入门的偏置
  2.  Bf:遗忘门的偏置
  3.  Bo:输出门的偏置
  4.  Bc:候选细胞状态的偏置

对应门控和候选状态的偏置(模型训练的参数)。

  1.  Ft:遗忘门
  2.  It:输入门
  3.  Ot:输出门
  4.  Tanh:激活函数,取值在[-1,1]之间    用于信息的缩放

作用:tanh将细胞状态的范围缩放到[−1,1],避免数值过大。

接近 0 则表示该信息暂时被 “封存” 在细胞状态中,不向外传递。

        1. Ct: LSTM 在第t 时刻的细胞状态

         2. Ht:LSTM 在第 t 时刻输出的隐藏状态

        

        3:候选细胞状态,提供了新信息的候选内容

        输入门  输出门  遗忘门的输出值都在[0,1]之间

二.更新计算过程:

1.  首先是ht-1 xt拼接完之后,每个乘以各自的权重,加上偏置,再用激活函数进行激活,这会形成三个门的计算公式,遗忘门,输入门和输出门。

观察可知,拼接之后的通过线段分别与三个门和相连。

这三个值都在[0,1]之间。

但是需要的激活函数是tanh,既为细胞状态提供了灵活的 “增量信息”,又与门控的 “开关逻辑” 形成互补

这就是四个公式的由来。

2.  然后是Ct-1,它是是 LSTM 在第 t−1 时刻的细胞状态

它需要乘以遗忘门,也就是乘以一个在0和1之间的数,控制上一个时刻的内部状态需要遗忘多少信息

接下来是It,乘上,It是输入门,值也是在0和1之间,输入门决定当前输入xt​中有多少新信息需要被 “存入” 细胞状态

对于It,元素接近 1 的位置,表示对应新信息需要被保留;接近 0 则表示该新信息不重要。

候选细胞状态则生成当前时刻可能存入细胞状态的 “候选信息”为细胞状态提供更新的候选内容。

两者进行相乘,再加上Ft乘上Ct-1,也就是得到了Ct,也就是这个式子。

既继承了有价值的历史信息,又融入了当前关键新信息。

3. 得到Ct之后,需要经过激活函数,也就是tanh激活函数,然后乘上输出门,输出门是个在0和1之间的数。

输出门控制 “当前细胞状态中哪些信息会被输出到隐藏状态,通过 sigmoid 函数筛选细胞状态的部分信息,并结合 tanh 函数处理后的细胞状态生成输出。

也就是输出ht,LSTM 在第 t 时刻输出的隐藏状态

即该公式:

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐