【LLM大模型组件】注意力机制：DeepSeek 稀疏注意力机制（DSA）

DeepSeek 稀疏注意力机制（DSA）是一种创新的、由闪电索引器（Lightning Indexer）驱动的动态细粒度稀疏注意力机制。它将传统自注意力机制的 “选择” 过程与 “计算” 过程解耦，仅对Top-k个最相关的历史词元（Token）进行高精度注意力计算。

timeflies99

1442人浏览 · 2025-10-26 13:54:32

timeflies99 · 2025-10-26 13:54:32 发布

文章优先发布在微信公众号——“LLM大模型”，有些文章未来得及同步，可以直接关注公众号查看

DeepSeek-V3.2-Exp，这是一个实验性的稀疏注意力大语言模型（LLM）。该模型通过精密的持续训练（Continued Training） 策略，在DeepSeek-V3.1-Terminus基准上成功集成了DeepSeek稀疏注意力（DeepSeek Sparse Attention, DSA） 机制。

DSA是一种创新的、由 闪电索引器（Lightning Indexer） 驱动的 动态细粒度稀疏注意力 机制。它将传统自注意力机制的 “选择” 过程与 “计算” 过程解耦，仅对Top-k个最相关的历史词元（Token）进行高精度注意力计算。

一、为何需要 DSA？

1.1 长上下文瓶颈

标准 Transformer 的自注意力机制计算所有 token 对之间的相关性，其时间和空间复杂度均为 $O(L^2)$ （ $L$ 为序列长度）。当 $L$ 扩展至 128K 或 160K 时：

显存需求爆炸：KV Cache 和注意力矩阵占用数百 GB 显存；
计算冗余严重：长文本中大量 token 对语义无关（如“the”与远端标点）；
推理延迟高：难以满足实时交互或批量处理需求。

1.2 现有稀疏方案的不足

静态稀疏（Longformer、BigBird）：固定窗口或全局 token，无法适应输入语义变化；
块稀疏：内存访问不连续，GPU 利用率低；
路由稀疏（如 MoE）：适用于 FFN，难直接用于 attention。

DSA 的目标：构建一种 动态、细粒度、可学习、硬件友好 的稀疏注意力机制，在几乎不损失模型能力的前提下，显著提升长序列效率。

二、DSA 的核心架构

DSA 由两个协同工作的模块构成：

在这里插入图片描述

2.1 闪电索引器（Lightning Indexer）

功能：为每个查询 token $h_t$ 与所有历史 token $h_s$ （ $s < t$ ）计算一个轻量级相关性得分 $I_{t,s}$ ；
设计原则：
- 极低开销：使用少量头（ $HI≪HH_I \ll H$ ）、低维投影（ $dI≪dd_I \ll d$ ）、FP8 精度；
- 高吞吐：采用 ReLU 激活，避免 softmax 归一化；
- 可学习：端到端训练，适应任务语义。

数学形式化

给定查询 token $ht∈Rdh_t \in \mathbb{R}^d$ 和历史 token $hs∈Rdh_s \in \mathbb{R}^d$ ，闪电索引器计算：

$I_{t,s} = \sum_{j=1}^{H_I} w_{t,j}^I \cdot \mathrm{ReLU}\left( q_{t,j}^I \cdot k_s^I \right), \tag{1}$

其中：

$qt,jI=WqIht∈RdIq_{t,j}^I = W_q^I h_t \in \mathbb{R}^{d_I}$ ， $ksI=WkIhs∈RdIk_s^I = W_k^I h_s \in \mathbb{R}^{d_I}$ 为低秩投影；
$wt,jI∈Rw_{t,j}^I \in \mathbb{R}$ 为可学习标量权重（可视为头重要性）；
$H_I$ 通常为 4–8， $d_I$ 为 32–64。

关键洞察：索引器不需精确模拟主注意力，只需排序能力（ranking ability）——即正确识别哪些 token 更重要。

2.2 细粒度令牌选择机制（Fine-Grained Token Selection）

功能：基于索引得分 $I_{t,s}$ ，为每个查询 token $t$ 动态选择 Top- $k$ 的 key-value 对；
稀疏集合定义：

$\mathcal{S}_t = \left\{ s \mid I_{t,s} \in \mathrm{Top}\text{-}k\left( \{ I_{t,s'} \}_{s' < t} \right) \right\}. \tag{2}$

稀疏注意力计算：

$u_t = \mathrm{Attn}_{\text{MLA}}\left( h_t,\ \{ (k_s, v_s) \}_{s \in \mathcal{S}_t} \right), \tag{3}$

其中 $AttnMLA\mathrm{Attn}_{\text{MLA}}$ 为 DeepSeek-V3 系列采用的 Multi-Latent Attention（MLA）机制。

重要约束：为兼容 MLA 的 MQA（Multi-Query Attention）模式，所有查询头共享同一组选中的 KV 对，确保 KV Cache 高效复用。

三、训练策略：如何让稀疏机制有效学习？

3.1 两阶段持续训练

阶段 1：稠密热启动（Dense Warm-up）

目的：初始化索引器，使其输出对齐主注意力分布；
方法：
- 冻结主模型，仅训练索引器；
- 将主注意力分数在头维度求和并 $L_1$ 归一化，得到目标分布 $p_{t,:}$ ；
- 最小化 KL 散度：

$\mathcal{L}_I = \sum_t D_{\mathrm{KL}}\left( p_{t,:} \parallel \mathrm{Softmax}(I_{t,:}) \right). \tag{4}$

阶段 2：稀疏联合训练（Sparse Training）

目的：让主模型适应稀疏输入，索引器优化稀疏模式；
关键技巧：
- 梯度解耦：索引器输入从计算图 detach，其梯度仅来自 $LI\mathcal{L}_I$ ；
- 稀疏对齐：KL 损失仅作用于选中集合 $St\mathcal{S}_t$ ：

$\mathcal{L}_I = \sum_t D_{\mathrm{KL}}\left( p_{t,\mathcal{S}_t} \parallel \mathrm{Softmax}(I_{t,\mathcal{S}_t}) \right). \tag{5}$

主模型优化：仅通过语言建模损失更新，确保任务性能。

四、工程实现与硬件优化

4.1 算子实现

TileLang 版本：用于科研快速迭代，支持高维稀疏张量操作；
CUDA 版本：生产级优化，包含：
- 自定义 Top- $k$ kernel；
- 稀疏 GEMM + softmax 融合 kernel；
- CSR（Compressed Sparse Row）内存布局。

4.2 硬件亲和性

FP8 支持：索引器全程 FP8 运算，带宽与功耗大幅降低；
H800 优化：利用 Tensor Core 加速低维投影；
短序列优化：对 $L < 4 K$ ，启用 Masked MHA 模拟 DSA，避免稀疏 overhead。

五、性能与效果权衡

指标	Dense (V3.1-Terminus)	DSA (V3.2-Exp, $k = 2048$ )
Attention FLOPs	$O(L^2 d)$	$O (L k d)$
128K Prefill 显存	~78 GB	~46 GB (↓41%)
Decoding 延迟/token	1.0x	~0.65x (↓35%)
MMLU-Pro (EM)	85.0	85.0
Codeforces Rating	2046	2121
AIME 2025 (Pass@1)	88.4	89.3

结论：在 $\geq 2048$ 时，任务性能几乎无损，但资源消耗显著降低。

六、与前沿稀疏注意力方法对比

方法	稀疏类型	动态性	可学习	硬件友好	任务适配
DSA（DeepSeek）	细粒度 + Top- $k$	✅	✅	✅	✅
Longformer	滑动窗口 + 全局	❌	❌	✅	⚠️
BigBird	随机 + 窗口 + 全局	❌	❌	⚠️	✅（理论）
Sparse Transformer	固定块模式	❌	❌	⚠️	❌
FlashAttention-2 + Sliding Window	局部稠密	❌	❌	✅	⚠️（无长距）
Native Sparse Attention (ACL 2025)	硬件对齐稀疏	⚠️	✅	✅	✅

DSA 独特优势：端到端可学习的动态稀疏 + 与 MLA/MQA 架构深度集成 + 工业级部署优化。

七、未来方向

7.1 核心洞见

稀疏不必精确，只需排序正确：索引器无需复现主注意力值，只需保证重要 token 排名靠前；
解耦训练是关键：梯度分离避免稀疏噪声干扰主模型学习；
MQA 是稀疏友好的基础：共享 KV 对天然契合稀疏选择。

7.2 未来工作

分层索引：对超长序列（>1M tokens），构建多级索引（如段落级 → 句子级）；
ANN 加速：用近似最近邻（如 FAISS）替代 $O(L^2)$ 索引计算；
自适应 $k$ ：根据输入复杂度动态调整稀疏度。

总结

DeepSeek 稀疏注意力机制（DSA）是一种面向长上下文、任务驱动、工程落地导向的稀疏化方案。它通过 轻量级闪电索引器 + 动态 Top- $k$ 选择 + 解耦训练策略，在保持模型表达能力的同时，将长序列处理成本降低 35–40%。其成功不仅在于算法创新，更在于与 MLA 架构、MQA 模式、FP8 硬件、生产部署的深度协同，为大模型高效推理提供了可复用的技术范式。

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

Chess用户界面设计：Tailwind CSS样式系统和组件库

GitHub推荐项目精选中的ch/chess是一个类似chess.com的多人在线象棋平台，它采用现代化的前端技术栈构建，尤其在用户界面设计上通过Tailwind CSS样式系统和组件库实现了优雅且功能丰富的交互体验。本文将深入探讨该项目如何利用Tailwind CSS打造一致的设计语言和高效的组件系统，为象棋爱好者提供沉浸式的游戏界面。## 🎨 Tailwind CSS样式系统：构建统一视

火山引擎 ADG 社区

终极指南：GPT-Engineer如何通过AI自动发现代码问题并提升质量

GPT-Engineer是一款强大的AI驱动代码工具，它能帮助开发者自动检测潜在代码问题、优化代码质量，让编程效率提升3倍以上。无论是新手还是资深开发者，都能通过这款工具轻松发现代码中的隐藏缺陷，减少调试时间，释放更多精力在创造性工作上。## 一键发现代码问题：GPT-Engineer的AI审查魔力GPT-Engineer的核心能力在于其内置的智能代码分析系统。通过集成Python代码格式

火山引擎 ADG 社区

SatDump中的纠错编码技术：从RS码到Turbo码的完整实现指南

在卫星数据传输过程中，信号往往会受到各种干扰，导致数据错误。SatDump作为一款通用卫星数据处理软件，集成了多种先进的纠错编码技术，确保从卫星接收到的数据能够准确解码。本文将深入解析SatDump中从Reed-Solomon（RS）码到Turbo码的实现细节，帮助读者理解这些技术如何保障卫星通信的可靠性。## 为什么纠错编码对卫星数据至关重要？卫星与地面站之间的通信链路面临着空间辐射、大