【AI大模型面试题】深入解析Transformer自注意力机制：为什么K/V可缓存而Q不能？大模型优化核心知识点

本文解释了Transformer推理阶段只缓存K/V矩阵而不缓存Q的原因。在自回归语言模型中，Query(Q)表示当前处理的token需实时计算，而Key(K)和Value(V)表示历史token信息可通过缓存复用。这种策略将时间复杂度从O(n²)降至O(n)，显著提升生成效率，同时确保模型仅利用历史信息预测未来，符合自回归要求。

健忘的派大星

1016人浏览 · 2025-10-14 11:18:04

健忘的派大星 · 2025-10-14 11:18:04 发布

背景

我们之前内容提到，Transformer的Self-attention计算主要通过QKV三个矩阵进行计算，我们提升推理性能方面可使用KV两个矩阵进行缓存，而大家可能有个问题为什么Q不做缓存呢？下面会详细说明具体的原因。

Transformer Decoder计算

如下图所示，这里展示了Transformer Decoder所有模块的框架图

我们主要优化的组件就是Q、K、V三个内容

因为 Decoder-only Transformer 的任务是自回归（GPT模型）语言建模：

每一步只能根据已经生成的历史 token 来预测下一个 token，绝不能偷看未来信息。

为什么 Q 是当前 token，K/V 是历史信息？

在 Self-Attention 中，计算公式为：

Query（Q）：表示当前正在处理的 token（即模型当前正在预测的位置）。
Key（K） 和 Value（V）：表示所有历史 token（包括当前 token 本身），因为它们提供了用于计算注意力的上下文信息。

推理步骤与公式

1. 计算当前 token 的 Q, K, V

2. 构建完整的历史 Key 和 Value 矩阵

说明：将当前 token 的拼接到缓存中，形成包含所有已生成 token 的完整矩阵。

3. 计算 Attention 分数（点积）

重点内容：为什么不是[q0, q1, …, qt+1] 进行相乘呢[q0, q1, …, qt+1] 与 K^T 相乘，这其实是训练阶段的标准做法。而在自回归生成（推理）阶段，我们只关心这个即将被生成的token的上下文是什么，所以我们只计算 q_{t+1} 这一个向量。推理阶段（比如ChatGPT生成回答）是自回归的，即一个一个地生成token。第1步：给定x0，模型计算 q0，并生成第一个token x1。第2步：输入 x0, x1，模型需要生成第二个token x2。第t+1步：输入为 [x0, x1, …, x_t]，模型需要生成下一个token x_{t+1}。

因此K可以通过缓存机制记录历史信息，而Q是当前位置x的内容，其是实时传入的没办法缓存

4. 缩放（Scale）

5. 应用因果掩码（Causal Mask）

其中是掩码向量，满足：

，当（允许关注当前及之前 token）
，当（实际实现中用极小值如 -1e9 代替）

应用因果掩码操作如图所示，相当于只关注之前的token，未来的token不做计算做了掩码

6. Softmax 归一化（得到注意力权重）

7.加权求和得到输出

这里也需要计算V的历史，可以通过缓存机制记录历史信息。因此K、V会进行缓存，而Q是实时计算

8.缓存更新（为下一个 token 准备）

以GPT为例，Attention 每个 Token 推理公式（自回归生成）

在自回归语言模型（如 GPT）中，文本是逐个 token 生成的。为了提升效率，Attention 计算会利用缓存（past_key, past_value）避免重复计算历史信息。

符号说明

符号	含义
	当前输入 token 的嵌入向量，
	已缓存的历史 Key 矩阵，
	已缓存的历史 Value 矩阵，
	可学习的投影权重矩阵
	当前 token 的 Query, Key, Value
	当前 token 的 Attention 输出

✅ 关键优势：通过缓存机制，每个 token 的推理时间复杂度为，而非，显著提升生成效率。综上所述，Q 是当前 token，K/V 是历史信息，确保模型只能利用过去的信息进行预测，符合自回归语言建模的要求。transformers_gpt2因此在Transformer的Decoder，会对KV历史信息进行缓存，而Q是根据当前输入实时计算的。

最后

为什么要学AI大模型

当下，⼈⼯智能市场迎来了爆发期，并逐渐进⼊以⼈⼯通⽤智能（AGI）为主导的新时代。企业纷纷官宣“ AI+ ”战略，为新兴技术⼈才创造丰富的就业机会，⼈才缺⼝将达 400 万！

DeepSeek问世以来，生成式AI和大模型技术爆发式增长，让很多岗位重新成了炙手可热的新星，岗位薪资远超很多后端岗位，在程序员中稳居前列。

在这里插入图片描述

与此同时AI与各行各业深度融合，飞速发展，成为炙手可热的新风口，企业非常需要了解AI、懂AI、会用AI的员工，纷纷开出高薪招聘AI大模型相关岗位。
在这里插入图片描述
最近很多程序员朋友都已经学习或者准备学习 AI 大模型，后台也经常会有小伙伴咨询学习路线和学习资料，我特别拜托北京清华大学学士和美国加州理工学院博士学位的鲁为民老师给大家这里给大家准备了一份涵盖了AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频 全系列的学习资料，这些学习资料不仅深入浅出，而且非常实用，让大家系统而高效地掌握AI大模型的各个知识点。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

AI大模型系统学习路线

在面对AI大模型开发领域的复杂与深入，精准学习显得尤为重要。一份系统的技术路线图，不仅能够帮助开发者清晰地了解从入门到精通所需掌握的知识点，还能提供一条高效、有序的学习路径。

但知道是一回事，做又是另一回事，初学者最常遇到的问题主要是理论知识缺乏、资源和工具的限制、模型理解和调试的复杂性，在这基础上，找到高质量的学习资源，不浪费时间、不走弯路，又是重中之重。

AI大模型入门到实战的视频教程+项目包

看视频学习是一种高效、直观、灵活且富有吸引力的学习方式，可以更直观地展示过程，能有效提升学习兴趣和理解力，是现在获取知识的重要途径

在这里插入图片描述
光学理论是没用的，要学会跟着一起敲，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。

海量AI大模型必读的经典书籍（PDF）

阅读AI大模型经典书籍可以帮助读者提高技术水平，开拓视野，掌握核心技术，提高解决问题的能力，同时也可以借鉴他人的经验。对于想要深入学习AI大模型开发的读者来说，阅读经典书籍是非常有必要的。
在这里插入图片描述

600+AI大模型报告（实时更新）

这套包含640份报告的合集，涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。
在这里插入图片描述

AI大模型面试真题+答案解析

我们学习AI大模型必然是想找到高薪的工作，下面这些面试题都是总结当前最新、最热、最高频的面试题，并且每道题都有详细的答案，面试前刷完这套面试题资料，小小offer，不在话下
在这里插入图片描述

在这里插入图片描述

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

火山引擎 ADG 社区

OpenClaw 小白安装指南（Windows版）

（类似一个能自动执行任务的AI机器人），不是游戏。API Key只保存在你本地电脑的加密文件里，不会上传到任何地方。访问：https://github.com/miaoxworld/openclaw-manager/releases。: 一键安装脚本会自动安装Node.js 22+，如果失败，手动下载安装：https://nodejs.org/：在PowerShell中，鼠标右键就是粘贴，不需要按

火山引擎 ADG 社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla