Kimi Linear的前身：由Gated Delta Rule扩展的Linear Attention

本文推导了线性注意力机制(Linear Attention)及其改进方法DeltaNet的计算公式。首先分析了标准自注意力机制通过分解指数项实现线性近似。然后介绍了DeltaNet的核心思想：采用增量更新规则动态调整记忆矩阵，通过引入遗忘机制解决长序列处理问题。文章详细推导了DeltaNet的数学形式，包括其线性性质和分块并行计算方法，证明了该模型能有效平衡记忆保留与更新。最后给出了DeltaNe

robin_ze

783人浏览 · 2025-11-27 11:07:03

robin_ze · 2025-11-27 11:07:03 发布

Linear Attention

在标准的self-attention架构中， $\cdot V$ ，那么对其中某个 $V'_i$ ，
$\bar{v}_i=\sum_j softmax_{ij}\left( \frac{QK^{\!\top}}{\sqrt d} \right) \cdot v_j$
由于 $so f t ma x$ 针对行，于是
$\bar v^{\!\top}=\sum_j softmax_{ij} \left( \frac{QK^{\!\top}}{\sqrt d} \right) \cdot v_j^{\!\top} =\frac{\sum_j exp(\frac{q_i^{\!\top} k_j}{\sqrt d})v_j^{\!\top}}{\sum_j exp(\frac{q_i^{\!\top} k_j}{\sqrt d})}$
为了进行线性化，简化 $exp(\frac{q^{\!\top} k}{\sqrt d})$ 这个二元函数中的2个变量为独立的，即 $exp(\frac{q^{\!\top} k}{\sqrt d})=\phi(q^{\!\top})\phi(k)$ ，其中 $\phi$ 对 $Q, V$ 都是row-wise的。于是
$\bar v_i^{\!\top}=\frac{\sum_j\phi(q_i^{\!\top})\phi(k_j)v_j^{\!\top}}{\sum_j\phi(q_i^{\!\top})\phi(k_j)} = \frac{\phi(q_i^{\!\top})\sum_j\phi(k_j)v_j^{\!\top}}{\phi(q_i^{\!\top})\sum_j\phi(k_j)}$
当考虑mask时，
$\bar v_i^T=\frac{\phi(q_i^{\!\top})\sum_{j=1}^i\phi(k_j)v_j^{\!\top}}{\phi(q_i^{\!\top})\sum_{j=1}^i\phi(k_j)} =\frac{\phi(q_i^{\!\top})S_i}{\phi(q_i^{\!\top})Z_i}$
其中， $Z_i=\sum_{j=1}^i\phi(k_j), S_i=\sum_{j=1}^i\phi(k_j)v_j^{\!\top}$ ，由此实现了对标准self-attention的线性化近似，以及 $Z_i, S_i$ 可以由 $Z_{i-1}, S_{i-1}$ 计算得到，可以通过cache节省计算时间。

DeltaNet

DeltaNet的定义

在上面的linear attention中， $S_t=S_{t-1}+v_tk_t^{\!\top}$ 累加得到——简洁起见，用 $k$ 代替 $\phi(k)$ ——可以看作memory，每次的 $v_t, k_t$ 更新这个memory。但由于 $v_tk_t^{\!\top}$ 的维度最高位d， $S$ 能表示的信息最多为 $d$ ；而简单的累加不会删除早期的记忆，因此无法有效应对序列长度 $N\gt d$ 的情形。一个更合理的模式应该是， $S$ 会在每轮更新中逸出过去的不重要的k-v关联，来为后续新的变量腾出空间。

根据delta update rule，重新定义损失函数和更新规则为 $\mathcal L_t(S) = \frac12\| S k_t - v_t \|^2\ \ \ \ \ \ \ \ S_t=S_{t-1}-\beta_t(S_{t-1}k_t-v_t)k_t^{\!\top}$ 在这里， $\beta_t$ 代表学习率， $S_{t-1}k_t$ 代表根据当前memory $S_{t-1}$ 根据新一轮 $k_t$ 对新一轮目标 $v_t$ 的预测。参数更新的目标是消除“预测” $S_{t-1}k_t$ 与"目标“ $v_t$ 之间的difference，这也是delta的含义。于是可以验证更新规则 $\begin{equation} S_t = S_{t-1} - \beta_t \, \nabla_{\!S_{t-1}} \mathcal L_t(S_{t-1}) = S_{t-1} - \beta_t \, (S_{t-1} k_t - v_t) k_t^{\!\top} \end{equation}$

DeltaNet的另一种解释

从key-value retrieval的角度，当前key会retrieve到从前的value： $v_t^{old}=S_{t-1}k_t$ ；新的value则由从前的value和当前的value值插值而来： $\begin{equation} v_t^{new}=\beta_t v_t+(1-\beta_t)v_t^{old} \end{equation}$ $\begin{equation} S_t=S_{t-1}-v_t^{old}k_t^{\!\top}+v_t^{new}k_t^{\!\top} \end{equation}$ 公式（3）中的减和加分别代表移除旧的无用信息和增添新的信息。将 $v_t^{new}-v_t^{old}$ 记作 $u_t$ ，于是根据式（2）有 $\begin{equation} u_t=\beta_t(v_t-v_t^{old})=\beta_t(v_t-S_{t-1}k_t) \end{equation}$

DeltaNet的线性性

接下来证明，DeltaNet的第2种解释与原本的定义是一致的，并且 $S_t$ 可以表示为 $\sum_{i=1}^t u_ik_i^T$ ，进而证明DeltaNet的线性性。

当 $t = 1$ 时， $S_1=\beta_1v_1k_1^{\!\top}$ ；假设对 $t - 1$ 有 $S_{t-1}=\sum_{i=1}^{t-1} u_ik_i^{\!\top}$ 成立，则对 $S_t$ ，参照式（3）， $\begin{equation} \begin{aligned} S_t &= S_{t-1} - v_t^{old}k_t^{\!\top} + v_t^{new}k_t^{\!\top} \\[1mm] &= S_{t-1} + \beta_t(v_t-S_{t-1}k_t)k_t^{\!\top} \\[1mm] &= S_{t-1}(I - \beta_t k_t k_t^{\!\top}) + \beta_t v_t k_t^{\!\top} \end{aligned}\end{equation}$ 这与最初定义时的式（1）是一致的；进而 $\begin{equation} S_t=S_{t-1}+\beta_t\left( v_t-S_{t-1}k_t \right)k_t^{\!\top}=S_{t-1}+u_tk_t^{\!\top} \end{equation}$

DeltaNet的Chunkwise形式

为推导chunkwise parallel形式，首先展开式（5）的循环： $\begin{equation}\begin{aligned} S_t &= \beta_t v_t k_t^{\!\top} + S_{t-1}(I - \beta_t k_t k_t^{\!\top}) \\[1mm] &= \beta_t v_t k_t^{\!\top} + \left(\beta_{t-1}v_{t-1}k_{t-1}^{\!\top}+S_{t-2}(I-\beta_{t-1}k_{t-1}k_{t-1}^{\!\top})\right)(I - \beta_t k_t k_t^{\!\top}) \\[1mm] &=\beta_t v_t k_t^{\!\top} + \beta_{t-1}v_{t-1}k_{t-1}^{\!\top}(I - \beta_t k_t k_t^{\!\top})+S_{t-2}(I-\beta_{t-1}k_{t-1}k_{t-1}^{\!\top})(I - \beta_t k_t k_t^{\!\top}) \\[1mm] &=\sum_{i=1}^t\beta_iv_ik_i^{\!\top} \left( \prod_{j=i+1}^{t}\bigl(I - \beta_j k_j k_j^{\!\top}\bigr) \right) \end{aligned}\end{equation}$ 在式（7）中，指定 $P_i^j=\prod_{t=i}^j(I-\beta_tk_tk_t^{\top})\in\mathbb{R}^{d\times d}$ ，以及 $H_i^j=\sum_{t=i}^j\beta_tv_tk_t^{\top}P_{t+1}^j$ ，并规定当 $i > j$ 时 $P_i^j=I$ 。从直觉上看， $P_i^j$ 是由 $S_i$ 得到 $S_j$ 的衰减因子。

接着，将整个长为 $N$ 的序列分为长度为 $C$ 的块。对于某个分块 $[t + 1]$ ，则有 $\begin{equation}\begin{aligned} S_{[t]}^r &=\sum_{i=1}^{tC+r}\beta_iv_ik_i^\top \left( \prod_{j=i+1}^{tC+r}\bigl(I - \beta_j k_j k_j^{\!\top}\bigr) \right) \\[1mm] &=\sum_{i=1}^{tC}\beta_iv_ik_i^\top \prod_{j=i+1}^{tC}\bigl(I - \beta_j k_j k_j^{\!\top}\bigr) \prod_{j=tC+1}^{tC+r}\bigl(I - \beta_j k_j k_j^{\!\top}\bigr) \\[1mm] & \ \ \ \ \ +\sum_{i=tC+1}^{tC+r}\beta_iv_ik_i^\top \prod_{j=i+1}^{tC+r}\bigl(I - \beta_j k_j k_j^{\!\top}\bigr) \\[[1mm] &= S_{tC}P_{tC+1}^{tC+r}+S_{tC+1}^{tC+r} = S_{[t]}^0P_{0[t]}^r+H_{[t]}^r \end{aligned}\end{equation}$ 式中， $S_{[t]}^i=S_{tC+i}, P_{0[t]}^r=P_{tC+1}^{tC+r}, H_{[t]}^r=H_{tC+1}^{tC+r}$ 。为了在实际代码实现线性attention，需要证明可以用累加的方法得到 $P_{[t]}^r, H_{[t]}^r$ 。

Chunkwise线性性的证明

先列出文章提出的公式，如果关注主要思路可以先跳过后面的证明
$\begin{equation}P_{[t]}^r=I-\sum_{i=1}^r w_{[t]}^i k_{[t]}^{i\top}\end{equation}$ $\begin{equation}H_{[t]}^r=\sum_{i=1}^r u_{[t]}^i k_{[t]}^{i\top}\end{equation}$ $\begin{equation}w_{[t]}^r=\prod_{i=1}^{r-1}\Bigl( I-\beta_{[t]}^i k_{[t]}^i k_{[t]}^{i\top} \Bigr)\beta_{[t]}^r\end{equation}$ $\begin{equation}u_{[t]}^r=\beta^r v^r - \beta^r \sum_{i=1}^{r-1}\beta^i v^i k^{i\top} \Bigl(\prod_{l=i+1}^{r-1}(I-\beta^l k^l k^{l\top})\Bigr) k^r\end{equation}$

证明（9），即 $P_{[t]}^r$ 可以通过 $w_{[t]}^i$ 表示为累加形式（以下证明中省略下标 $[t]$ ）
$\begin{aligned} P^r &= \prod\bigl( I-\beta^t k^t k^{t\top} \bigr)\ \ \ \ \text{展开后考虑每一项$k^i k^{i\top}$前面乘的因子} \\[1mm] &= I - \sum_{i=1}^r\prod_{j=1}^{i-1}\bigl(I-\beta^j k^j k^{j\top} \bigr)\beta^i k^i k^{i\top} \\[1mm] &= I - \sum_{i=1}^r w^i k^{i\top} \end{aligned}$
证明（10）， $w_{[t]}^r$ 可以递归表示
$\begin{aligned} w^r &= \prod_{i=1}^{r-1}\Bigl( I-\beta^i k^i k^{i\top} \Bigr)\beta^r \ \ \ \ \text{类似的考虑每个$k^i$前面乘的因子} \\[1mm] &= \beta^r\Bigl( I - \sum_{i=1}^{r-1}\prod{j=1}^{i-1}(I-\beta^j k^j k^{j\top})\beta^i k^i k^{i\top} \Bigr) k^r \\[1mm] &= \beta^r (I-\sum_{i=1}^{r-1}w^i k^{i\top})k^r \end{aligned}$
证明（11）， $H_{[t]}^r$ 可以通过 $u_{[t]}^i$ 表示为累加形式
$\begin{aligned} H^r &= \sum_{i=1}^r \beta^i v^i k^{i\top} P_{i+1}^r \\[1mm] &= \sum_{i=1}^r \beta^i v^i k^{i\top} \Bigl( \prod_{j=i+1}^r (I-\beta^j k^j k^{j\top}) \Bigr)\ \ \text{考虑每个$k^ik^{i\top}$前的乘子} \\[1mm] &= \sum_{i=1}^r\biggl( \beta^i v^i k^{i\top} - \sum_{j=1}^{i-1}\beta^j v^j k^{j\top} \Bigl(\prod_{l=j+1}^{i-1}(I-\beta^l k^l k^{l\top})\Bigr) \beta^i k^i k^{i\top}\biggr) \\[1mm] &= \sum_{i=1}^r u^i k^{i\top} \end{aligned}$
证明（12）， $u_{[t]}^r$ 可以递归表示
$\begin{aligned} u^r &= \beta^r \Bigl( v^r - \sum_{j=1}^{r-1}\beta^j v^j k^{j\top} \bigl(\prod_{l=j+1}^{r-1}(I-\beta^l k^l k^{l\top})\bigr) k^r\Bigr) \ \ \text{考虑每个$k^j k^{j\top}$前的乘子} \\[1mm] &= \beta^r\biggl( v^r - \sum_{j=1}^{r-1}\Bigl(\beta^jv^jk^{j\top}-\sum_{i=1}^{j-1}\beta^iv^ik^{i\top}\bigl( \prod_{l=i+1}^{j-1}(I-\beta^lk^lk^{l\top}) \beta^jk^jk^{j\top} \bigr) \Bigr)k^r\biggr) \\[1mm] &= \beta^r\biggl( v^r - \sum_{j=1}^{r-1}\beta^j\Bigl(v^j-\sum_{i=1}^{j-1}\beta^iv^ik^{i\top}\bigl( \prod_{l=i+1}^{j-1}(I-\beta^lk^lk^{l\top}) k^j \bigr) \Bigr)k^{j\top}k^r\biggr) \\[1mm] &= \beta^r (v^r - \sum_{j=1}^{r-1}u^jk^{j\top}k^r) \end{aligned}$

Chunkwise DeltaNet的矩阵形式

将上节的parallel形式带入（8），有
$\begin{equation} S_{[t]}^r=S_{[t]}^0-\Bigl( S_{[t]}^0\sum_{i=1}^r w_{[t]}^ik_{[t]}^{i\top} \Bigr)+\sum_{i=1}^r u_{[t]}^ik_{[t]}^{i\top}=S_{[t]}^0+\sum_{i=1}^r\bigl( u_{[t]}^i-S_{[t]}^0w_{[t]}^i \bigr)k_{[t]}^{i\top} \end{equation}$ $\begin{equation} o_{[t]}^r=S_{[t]}^rq_{[t]}^r=S_{[t]}^0q_{[t]}^r+\sum_{i=1}^r\bigl(u_{[t]}^i-S_{[t]}^0w_{[t]}^i \bigr)(k_{[t]}^{i\top}q_{[t]}^r) \end{equation}$

因此整个chunk表示为
$\begin{equation} S_{[t+1]}=S_{[t]}+\bigl(U_{[t]}-W_{[t]}S_{[t]}^\top\bigr)^\top K_{[t]} \end{equation}$ $\begin{equation} O_{[t]}=Q_{[t]}S_{[t]}^\top+(Q_{[t]}K_{[t]}^\top \odot M)\bigl(U_{[t]}-W_{[t]}S_{[t]}^\top\bigr) \end{equation}$ 其中， $M$ 是对角不为0的下三角矩阵。

DeltaNet的最终形式

根据式（11）（12）， $w_{[t]}^r$ 和 $u_{[t]}^r$ 还不能写成张量乘积的形式。为此，进一步使用UT变换，将其写为 $W_{[t]}=T_{[t]}K_{[t]}$ 的形式。
对于 $W_{[t]}$ ，其中的第 $r$ 行表示为 $\begin{equation} \mathbf{W}_{[t]}[r, :] = \beta_{[t]}^r \mathbf{K}_{[t]}[r, :] - \beta_{[t]}^r \sum_{i=1}^{r-1} \mathbf{W}_{[t]}[i, :] (\mathbf{K}_{[t]}[i, :] \mathbf{K}_{[t]}[r, :]^\top) \end{equation}$ 记 $B_{[t]}=diag(\beta_{[t]}), L_{[t]}=tril(B_{[t]}K_{[t]}K_{[t]}^\top, -1)$ ， $tril(\cdot,-1)$ 表示取矩阵的严格下三角，那么式（17）变为 $\begin{equation} W_{[t]}+L_{[t]}W_{[t]}=B_{[t]}K_{[t]} \end{equation}$ 令 $T_{[t]}=(I+L_{[t]})^{-1}B_{[t]}$ ，可以得到 $\begin{equation} W_{[t]}=(I+L_{[t]})^{-1}B_{[t]}K_{[t]}=T_{[t]}K_{[t]} \end{equation}$ 类似的，也有 $\begin{equation} U_{[t]}=T_{[t]}V_{[t]} \end{equation}$

于是，chunkwise DeltaNet的整体流程是

计算 $Q, K, V$
计算 $T$
根据（19）（20）计算 $W, U$
对每个chunk，根据（15）（16）计算memory和最终output

Kimi Linear

Kimi Linear在DeltaNet的基础上进一步增加了对角gate $Diag(\alpha_t)$ ，以实现更精细的memory decay和位置信息的控制： $\begin{equation} S_t = \beta_t v_t k_t^{\top} + S_{t-1} Diag(\alpha_t) (I - \beta_t k_t k_t^{\top}) \end{equation}$ 这里沿用了DeltaNet文章中的相乘顺序，与Kimi Linear Attention有差别。后面，同样进行了 $S_{[t]}^r= S_{[t]}^0P_{0[t]}^r+H_{[t]}^r$ 的变换，以WY-transform和UV-transform化为chunkwise-parallel格式。

Kimi Linear Attention的部分右面有机会另写一篇来整理。上述内容源于个人读Linear Attention时的推导，如果有谬误欢迎各路大佬指正。

Ref

[1] Katharopoulos, A., Vyas, A., Pappas, N., and Fleuret, F., “Transformers are RNNs: Fast Autoregressive Transformers with Linear Attention”, arXiv e-prints, Art. no. arXiv:2006.16236, 2020. doi:10.48550/arXiv.2006.16236.

[2] Schlag, I., Irie, K., and Schmidhuber, J., “Linear Transformers Are Secretly Fast Weight Programmers”, arXiv e-prints, Art. no. arXiv:2102.11174, 2021. doi:10.48550/arXiv.2102.11174.

[3] Yang, S., Wang, B., Zhang, Y., Shen, Y., and Kim, Y., “Parallelizing Linear Transformers with the Delta Rule over Sequence Length”, arXiv e-prints, Art. no. arXiv:2406.06484, 2024. doi:10.48550/arXiv.2406.06484.

[4]“线性注意力简史：从模仿、创新到反哺”[https://www.spaces.ac.cn/archives/11033]

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

Chess用户界面设计：Tailwind CSS样式系统和组件库

GitHub推荐项目精选中的ch/chess是一个类似chess.com的多人在线象棋平台，它采用现代化的前端技术栈构建，尤其在用户界面设计上通过Tailwind CSS样式系统和组件库实现了优雅且功能丰富的交互体验。本文将深入探讨该项目如何利用Tailwind CSS打造一致的设计语言和高效的组件系统，为象棋爱好者提供沉浸式的游戏界面。## 🎨 Tailwind CSS样式系统：构建统一视

火山引擎 ADG 社区

终极指南：GPT-Engineer如何通过AI自动发现代码问题并提升质量

GPT-Engineer是一款强大的AI驱动代码工具，它能帮助开发者自动检测潜在代码问题、优化代码质量，让编程效率提升3倍以上。无论是新手还是资深开发者，都能通过这款工具轻松发现代码中的隐藏缺陷，减少调试时间，释放更多精力在创造性工作上。## 一键发现代码问题：GPT-Engineer的AI审查魔力GPT-Engineer的核心能力在于其内置的智能代码分析系统。通过集成Python代码格式

火山引擎 ADG 社区

SatDump中的纠错编码技术：从RS码到Turbo码的完整实现指南

在卫星数据传输过程中，信号往往会受到各种干扰，导致数据错误。SatDump作为一款通用卫星数据处理软件，集成了多种先进的纠错编码技术，确保从卫星接收到的数据能够准确解码。本文将深入解析SatDump中从Reed-Solomon（RS）码到Turbo码的实现细节，帮助读者理解这些技术如何保障卫星通信的可靠性。## 为什么纠错编码对卫星数据至关重要？卫星与地面站之间的通信链路面临着空间辐射、大