25年奇安信大模型面经：通过一些深刻的面试问题，来加深理解！

之所以聚类摘要，是因为。

Debroon

1494人浏览 · 2025-06-19 10:47:13

Debroon · 2025-06-19 10:47:13 发布

25年奇安信大模型面经：通过一些深刻的面试问题，来加深理解！

简述 Transformer 多头注意力机制理解词间关系的原理?

5 Why：刨根问底

训练 Transformer 时，如何解决梯度消失或梯度爆炸问题？

1. 拆解 【解法】——先看“问题特征”，再对号入座“具体做法”

子解法 1：残差连接 + LayerNorm

子解法 2： $\sqrt{d_k}$  缩放 + Xavier/He 初始化

子解法 3：学习率 Warm‑up + 自适应优化器（AdamW / AdaFactor）

子解法 4：梯度裁剪（Clip‑Norm/Clip‑Value）

子解法 5：Pre‑LayerNorm / DeepNorm / ReZero（改网络拓扑）

子解法 6：混合精度 + Loss Scaling

2. 这些子解法的逻辑关系 —— 一棵简单决策树

3. 深挖“隐性方法” & “隐性特征”

4. 可能的局限性

GPT 等模型对 Transformer 结构做了哪些改进以提升生成效果？

1. 按“特征 → 解法”逐层拆解

2. 子解法之间是怎样的逻辑链？——一棵极简决策树

3. 有没有“书上没写”的隐性**方法**？

4. 有没有“隐性特征”？

5. 潜在局限性，别只背优点

如何优化 Transformer 模型预测速度？

1. “特征 → 子解法” 逐层剖

2. 子解法之间什么逻辑？——决策树一眼看完

3. 有无“书上没摆明”的 **隐性方法**？

4. 有无“隐性特征”？

5. 潜在局限，别光说爽点

说明 RAG 结合外部知识库与大语言模型提升回答准确性的机制。

用 RAG 构建问答系统时，如何处理检索内容不相关或不全的问题？

子解法 1：查询重写 / 扩展

子解法 2：稀疏 + 稠密混检（Hybrid Retrieval）

子解法 3：多跳 / 子问分解检索

子解法 4：Cross‑Encoder 重排

子解法 5：迭代反馈（Retrieve‑Read‑Retrieve）

子解法 6：自适应切片 / 滑窗 Chunking

子解法 7：领域微调的专用向量索引

子解法 8：缺答提示 & 备用生成

2. 这些子解法的逻辑链到底像什么？

3. 有没有“隐性方法”——书上没强调但实践里必须做的？

4. 有没有“隐性特征”——题面没写，但解法暗中依赖？

5. 这一整套方法的潜在局限

5 Why 追根溯源

如何确定 RAG 系统中文档的合适切分粒度？

子解法 1：层级标题切分

子解法 2：窗口‑重叠滑窗

子解法 3：语义密度阈值

子解法 4：引用保持器

子解法 5：类型感知切分

子解法 6：动态再切分

二、这些子解法的逻辑链是谁拉的？

三、有没有“隐性方法”？

四、有没有“隐性特征”？

五、方法的潜在局限

六、起始问题 & 5 Why

当 RAG 系统知识库数据量大、检索慢时，有哪些提速方法？

1 | 把提速思路拆成一串子解法

1.1 算法级（检索算得快）

1.2 搜索空间级（要算的东西少）

1.3 系统级（算力、并发、I/O）

1.4 知识库级（库自己瘦身 / 结构化）

1.5 查询侧级（Query 本身更“易检索”）

2 | 这些子解法串成怎样的决策逻辑？

3 | 有没有“隐性方法”被大家默默用却很少写进书？

4 | 有没有“隐性特征”其实左右了方案选型？

5 | 每条方法的潜在局限

5 Why 追到最根子

起始问题的核心论点

如何协同使用 Transformer 与 RAG 以发挥最佳效果？

1 | 把“协同”拆成一串子解法

1.1 检索侧 Transformer（找得准）

1.2 生成侧 Transformer（答得好）

1.3 检索‑生成交互（配合得妙）

1.4 监督与蒸馏链路（让俩模型说同话）

1.5 反馈自学习（自己养自己）

2 | 这些子解法的决策逻辑（树状）

3 | 有无“隐性方法”悄悄起大作用？

4 | 有无“隐性特征”左右方案选型？

5 | 潜在局限

5 Why 追根溯源

起始问题的核心论点

用 RAG 优化模型回答，有哪些实用评估指标？

1. 把“大解法”拆成 8 个 **子解法 = 评估指标**

子解法 1：**检索召回率 Recall\@k**

子解法 2：**检索精度 Precision\@k / Top‑1 Acc**

子解法 3：**排名质量 MRR / nDCG**

子解法 4：**上下文覆盖率 Coverage**

子解法 5：**答案‑上下文一致性 Faithfulness / Grounding**

子解法 6：**答案正确度 EM / F1 / ROUGE‑L**

子解法 7：**人类可用性 Helpfulness / 完整度 / 阅读体验**

子解法 8：**效率指标 Latency & Cost**

举个栗子👇

2. 这些子解法的逻辑链 —— **决策树**（文字版）

3. 隐性方法（关键但书上常略过）

4. 隐性特征

5. 潜在局限性

5 Why 追根溯源

如何清洗 Transformer 模型训练数据中的噪声？

一、按照逻辑关系拆解【解法】

子解法 1：语言识别筛选

子解法 2：HTML & 脚本剥壳

子解法 3：Shingle‑Hash 重复去重

子解法 4：长度 & Token 分布过滤

子解法 5：毒性 & 违禁内容屏蔽

子解法 6：PII 识别与脱敏

子解法 7：模板 / 日志 / 代码块识别

子解法 8：机器翻译 / LLM 自生成痕迹检测

子解法 9：语义一致性校验

子解法 10：动态 early‑loss 剔除

二、子解法之间是怎样的逻辑链？

三、隐性方法

四、隐性特征

五、局限性

六、起始问题 & 5 Why

在 RAG 架构中，怎样确保检索信息与大模型生成内容逻辑连贯？

1 | “逻辑连贯”被我拆成 5 组子解法

1.1 检索侧对齐（找的料就得对题）

1.2 Prompt 对齐（喂进去的证据要摆顺）

1.3 生成侧对齐（回答过程别走偏）

1.4 跨轮一致性（多轮对话不自相矛盾）

1.5 事后校验（上线兜底）

2 | 决策树：到底该挑哪招？

3 | 隐性方法，被很多团队默默用

4 | 隐性特征，也决定方案好坏

5 | 潜在局限

5 Why 追到根子

起始问题的核心论点

简述 Transformer 多头注意力机制理解词间关系的原理?

一句话：“谁问（Q）—向谁打听（K）—拿到什么信息（V）”，形成一次自注意力。
自注意力 = 用可学习的 Q – K 匹配函数产生注意（重要性）权重，再用 V 加权聚合上下文。

先闭上眼，想象一下你在群里抛了个问题：“中午吃啥？”

群里 30 个人同时回你。

有的回“泡面”，有的回“火锅”，有的根本没看消息乱发表情包。

你扫一眼就知道——“火锅”那条最对胃口。

于是你点开那位朋友的头像，再追问一句：“哪家？”

接着，对方甩来一家评分 4.8 的店，你立刻收藏。

这一连串动作，其实就是“谁问 Q——向谁打听 K——拿到什么信息 V”。

问的人（你）扔出 Query。

被问的人（那位火锅达人）是 Key。

而他丢过来的店名，就是 Value。

那是怎么“决定问什么”的？

答案就是：通过学习出来的参数矩阵。

Transformer 一开始不懂怎么问、问谁、要什么，但随着训练，它会自动学会哪些提问方式更聪明、哪些回答方式更有用。

Transformer 每次“提问”的方式，都是在“问自己到底需要谁的帮助”，而这种方式本身是通过大规模训练学出来的最优策略。

语句：“我爱小猫咪”吗？

“我”会生成一个 Query，代表它想知道：“这句子里，谁和我最有关系？”

系统拿着“我”的 Query 去问全体同学（也就是那句话里的每个词），

再用所有同学的 Key（相当于“回答预设”）做对比。

对比结果越像，“我”就越关注那个人。

最后，“我”可能发现和“爱”“小猫咪”的 Key 特别对味，于是就重点听他们说的 Value。

5 Why：刨根问底

Why 1 ｜ 为什么要问？

因为序列里的每个词都像群聊里那 30 个人，谁也不知道自己是不是重点，得有人发问才能知道谁该被关注。

Why 2 ｜ 为什么用点积就能评估“该不该回我”？

点积就是“看方向”：方向越对，数越大——好比你一眼看中“火锅”，眼缘到了，自然多看他两眼。

Why 3 ｜ 为什么要把同一句话拆成 Q、K、V 三份？

同一个词扮三种角色，就像同一个人能提问、能被问、还能给答案；三套衣服随时切换，表达力翻倍。

Why 4 ｜ 为什么要除以 √d 再 softmax？

人数多（向量维度高）时，点积动辄破表，得先降温再排座次，不然谁都喊得震天响，没人真正听清。

Why 5 ｜ 最底层的动机是什么？

深度模型要的就是一个 又快又并行又不挑位置 的“八卦机制”，自注意力完美满足。

层次	追问	回答
Why 1	为什么在 Transformer 里要让“查询 Q 去询问键 K”？	因为我们要为每个词动态找到“对我当前语义最有用”的上下文信息，而这种“谁该关注谁”的强弱必须显式算出一组权重。
Why 2	为什么用 “Q·K 的点积 + Softmax” 就能给出权重？	点积检测向量方向一致性：语义越相近，角度越小，点积越大；Softmax 把所有候选强度归一化为概率分布，天然可解释为“注意力分配”。
Why 3	为什么还要把原始嵌入分别投影成三份（Q、K、V）而不是直接对词向量点积？	独立线性投影让模型在不同子空间里学习“提问方式”（Q）、“匹配特征”（K）与“携带信息”（V），增加表达力；同时多头并行也依赖这种分离。
Why 4	为什么线性投影 + 点积这种形式易于学习并大规模应用？	它是矩阵乘法，可一次性并行计算所有位置对；同时保持可微分，便于梯度下降优化，也充分利用现代 GPU/TPU 的张量并行能力。
Why 5	最根本的原因是什么？	深度序列模型需要一种可学习、可并行、位置无关的泛用运算来刻画任意两元素间的相互作用——Q‑K‑V 自注意力正好满足这三点，因而成为 Transformer 的核心。

层次	因此我们可以……	会得到什么结果？
So 1	实现方案：在每一层都构造 Q、K、V，计算 $ \text{softmax}(QK^{\top}/\sqrt{d_k})V $	得到一组上下文加权向量，每个词的表征已融入最相关信息。
So 2	把该操作做成多头并行 + 残差 + LayerNorm	同一层可同时捕获语法、语义、长距对齐等多视角关联，且训练更稳定。
So 3	将自注意力层堆叠（Encoder/Decoder 各多层）	上层能基于下层的关联再做组合，逐层抽象出更高阶的句法‑语义结构。

层层叠加，语义拔高

一层注意力找到“谁和谁关系紧”。

再压一层，模型开始看“哪几个关系能组成事件”。

往上堆，连“整段话到底想表达啥情绪”都显山露水。

就像积木越垒越高，最后能搭出一座摩天大楼。

训练 Transformer 时，如何解决梯度消失或梯度爆炸问题？

1. 拆解 【解法】——先看“问题特征”，再对号入座“具体做法”

面试官关心的核心：怎么让梯度别一会儿消失、一会儿爆炸。

子解法	对应的子问题（梯度为什么会消失/爆炸）	一句话记忆法
残差连接 + LayerNorm	网络太深、信号跨层距离长 → 梯度沿途不断衰减	“搭高铁，不走国道”
√dk 缩放 + Xavier/He 初始化	注意力 $\langle Q, K\rangle$ 方差随维度线性叠加 → 数值瞬间放大	“点积先限速，出厂调好胎压”
学习率 Warm‑up + AdamW/AdaFactor	训练前期参数随机，直接高 LR → 梯度爆；参数尺度差异大 → 局部爆	“刚起步先半联动”
梯度裁剪（Clip‑Norm/Value）	数据里偶尔混进“怪胎”样本 → 单批次梯度尖刺	“戴安全帽，防飞石”
Pre‑LayerNorm / DeepNorm / ReZero	深层残差累乘依旧放大/衰减 → 上百层时又爆又消	“把坡度削平，斜率归一”
混合精度 + Loss Scaling	FP16 精度低 → 小梯度下溢成 0，大梯度上溢成 Inf	“蚊子腿放大、大象腿先称重”
Attention Offset‑Trick（隐性）	Softmax 输入整体偏负、跨度大 → 指数函数把梯度压到 0	“先整体平移，把数抬到 [-15,0]”
动态 Loss Scaling（隐性）	批间梯度幅度剧烈波动 → 静态 scale 不够用	“能屈能伸的放大镜”
梯度累积 + Micro‑batch（隐性）	显存小 → 批次太小，梯度噪声高 → 爆/消概率大	“攒够人再发车”

子解法 1：残差连接 + LayerNorm

因为特征：Transformer 层数动辄几十上百，信号跨层传递距离太远，梯度容易衰减。
做法：
1. 每一层都加 Residual，让梯度能“抄近路”。
2. 再套一圈 LayerNorm，把每层的激活和梯度拉回到 ~N(0,1) 的安全带。
之所以用它：给深网铺“高速公路”——不用它，梯度一层层走国道，早耗光了。

举个例子：BERT‑base（12 层）如果把 Residual 拔掉，10 步后训练直接 NaN。

子解法 2： $\sqrt{d_k}$  缩放 + Xavier/He 初始化

因为特征：注意力里 $QK^\top$ 会把维度 $d_k$ 次方的方差叠加，数值爆表。
做法：
1. 点积前后都除以 $\sqrt{d_k}$ 。
2. 权重用 Xavier（均匀）或 He（ReLU）把方差控制在 $fan_avg 1/\text{fan\_avg}$ 。
之所以用它：相当于“出厂就限速”，别让第一步前向就把梯度放大千倍。

举个例子：GPT‑2 小模型把 $\sqrt{d_k}$ 改成 1，训练第 3 万步 loss 从 3 掉到 1e‑4，再蹦成 1e20。

子解法 3：学习率 Warm‑up + 自适应优化器（AdamW / AdaFactor）

因为特征：一开始权重靠随机初始化，梯度方向噪声大；全速跑容易爆炸。
做法：
1. 前  $N$  步缓慢升 LR（Warm‑up），给网络“热车”。
2. AdamW 把每个参数按历史二阶矩自调步长，抑制局部极大梯度。
之所以用它：先慢后快，像手动挡起步，离合松太猛就熄火（梯度爆）。

举个例子：常见配置 4 万步 Warm‑up，顶点 LR 5e‑4，可训练 1 B 参数不炸。

子解法 4：梯度裁剪（Clip‑Norm/Clip‑Value）

因为特征：偶尔半路遇到尖锐 loss 峰，单批次梯度暴冲。
做法：

$\leftarrow g \times \min\!\Bigl(1,\; \frac{\text{clip}}\lVert g\rVert_2\Bigr)$

常用阈值 1.0。
之所以用它：套个安全帽，保证任何时刻 $\lVert g\rVert \leq \text{clip}$ 。

举个例子：T5‑3B 不裁剪，“极端长句”批次 GPU 会报 Inf；加裁剪后稳过。

子解法 5：Pre‑LayerNorm / DeepNorm / ReZero（改网络拓扑）

因为特征：深层网络“累乘”残差权重后仍会放大或衰减。
做法：
1. Pre‑LN：先 Norm 再残差，公式变成 $F(\text{LN}(x))$ 。
2. DeepNorm：给残差再乘 $1/\sqrt{2L}$ 缩放。
3. ReZero：残差前乘可训练系数 $\alpha$ ，初值 0。
之所以用它：拉直梯度的“斜率”，让上百层也能传。

举个例子：Switch‑Transformer 152 层用 DeepNorm，否则前向 OK，反向爆炸。

子解法 6：混合精度 + Loss Scaling

因为特征：FP16 精度低，下溢触发梯度消失；同批次有极大极小梯度共存。
做法：
1. 将 loss 乘 2 $^n$ 放大后再反向（静态/动态 scaling）。
2. 更新前再除回。
之所以用它：把“蚊子腿”放大到能被 FP16 表示，又不让“大象腿”挤爆显存。

举个例子：训练 Stable Diffusion FP16 Loss Scaling=1024，梯度统计从 1e‑7 抬到 1e‑4，稳定。

2. 这些子解法的逻辑关系 —— 一棵简单决策树

开始：梯度异常？
│
├─ 深度过深？─────────────┐
│                         ├─ 残差+LayerNorm
│                         └─ Pre‑LN / DeepNorm / ReZero
│
├─ 注意力/权重初值导致数值放大？─>  √dk 缩放 + 合理初始化
│
├─ 训练早期 LR 过猛？─────>  Warm‑up + AdamW
│
├─ 偶发梯度尖刺？────────>  梯度裁剪
│
└─ 精度不足/数值下溢？────>  混合精度 + Loss Scaling

像一张地铁图——每条支路针对一种“异常源”，交叉但不冲突。

3. 深挖“隐性方法” & “隐性特征”

隐性关键方法	它藏在哪	对应的隐性特征	一句话解释
Attention 内部 Offset‑Trick $QK^\top/\sqrt{d_k} + \text{offset}$	多头注意力实现细节	Softmax 尾部有极小负数导致梯度消失	给 logits 整体减最大值，把分布抬到 $[- 15, 0]$ ，Softmax 区分度大，梯度不烂
动态 Loss Scaling	AMP runtime	梯度统计跨批次剧烈波动	爆梯度时自动减 scale，防 Inf；梯度小就增 scale，防下溢
梯度累积 + Micro‑batch	训练脚本	GPU 显存限制间接导致批次太小，估计噪声大	先攒 k 个小批次梯度再更新，方差减半，爆/消都少

这些步骤常被“藏在框架默认”，面试时点一下，亮眼。

4. 可能的局限性

残差+LayerNorm
- 额外算子 → 速度损耗约 5‑8%。
- LayerNorm 对 极长序列 不友好，可能成瓶颈。
$\sqrt{d_k}$ 缩放 + 初始化
- 仅针对注意力。Feed‑Forward 仍可能炸，需要多头同样调参。
Warm‑up + AdamW
- 预热步数选太长 → 收敛慢。
- Adam 类优化器在超大 batch（>64 K）上泛化欠佳。
梯度裁剪
- 设阈值拍脑袋，裁得太狠会“降速”，收敛变慢。
Pre‑LN / DeepNorm
- 理论上更稳，但 推理延迟 略高、显存多一份 ln 统计。
混合精度 + Loss Scaling
- 动态 scaling 会插一次全局 All‑reduce，有同步开销。
- 某些低精 TPU 核心下溢阈值更苛刻，仍需调参。

GPT 等模型对 Transformer 结构做了哪些改进以提升生成效果？

1. 按“特征 → 解法”逐层拆解

#	子解法	技术要点（公式/伪代码）	之所以用它，是因为…	再举一小例子
1	改成纯 Decoder + Causal Mask	$\text{Attn}(Q,K,V)=\text{softmax}\!\left(\frac{QK^\top}{\sqrt{d_k}} + M_\text{causal}\right)V$	特征 A：生成是左到右的因果过程，Encoder 部分对单向语言建模没用。	没有 Encoder，推理只看“过去”，能边生成边输出——手机键盘的联想词就是这种。
2	相对/旋转位置编码（RoPE、ALiBi）	$\tilde Q_i=Q_i R_i,\;\tilde K_i=K_i R_i$	特征 B：绝对坐标学不懂“迁移”，位置太大还溢出。	训练 2k token，测试 32k token还能对齐；LLM 长文本总结靠它。
3	Pre‑LN & RMSNorm	$\text{Sublayer}( \text{Norm}(x) )$	特征 C：深层网络（>48 层）梯度爆炸/消失。	GPT‑3 把 LayerNorm 前移后，训练批次直接翻倍也稳住了。
4	SwiGLU 激活 + 并行 Attention/FFN	$\text{FFN}(x)=\text{SwiGLU}(xW_1)\,W_2$	特征 D： FFN 占大头参数，却学不到复杂非线性；串行计算也慢。	Megatron‑LM 把 Attention 和 FFN 合并一步跑，吞吐↑30%。
5	FlashAttention / Tri‑480 内核	把 $Q, K, V$ 分块进 SRAM，O(N²) 访存→O(N)	特征 E：显存/带宽比算力更稀缺。	GPT‑4 Turbo 128k 上下文，其实靠的是 FlashAttention‑2。
6	Multi‑Query / Grouped‑Query Attention	$K, V$ 共享， $Q$ 多头	特征 F：解码时 Re‑KV 复制开销大。	同样 64 张 A100，吞吐从 2 k‑tok/s 提到 3.5 k‑tok/s。
7	MoE / GShard 稀疏路由	$\sum_{k=1}^K g_k(x)\, \text{FFN}_k(x)$	特征 G： “模型宽”≈创造力，但显存顶不住。	GPT‑4 谣传的 16‑Experts，就是只激活 2 个专家，参数看着大其实算得少。
8	词嵌入‑输出权重共享 + Scale 调整	$W_\text{out}=W_\text{emb}^\top / \sqrt{d_\text{model}}$	特征 H：语言分布 Zipf 性，头尾频次差距大，容易欠拟合长尾。	权重同源 + 温度缩放，能让“罕见生僻字”也有概率被挑中。

2. 子解法之间是怎样的逻辑链？——一棵极简决策树

目标：提高生成效果
│
├─▶ 保证因果一致 & 流水线速度 —— 用 Decoder-only + Causal Mask（子解法1）
│
├─▶ 上下文更长 —— 相对/旋转位置编码（子解法2）
│
├─▶ 训练得住超深网络 —— 预归一化 & RMSNorm（子解法3）
│
├─▶ 让每层更会“想” —— SwiGLU + 并行结构（子解法4）
│
├─▶ 显存/带宽不爆 —— FlashAttention & Multi‑Query（子解法5,6）
│
└─▶ 继续放大参数但保持成本 —— 稀疏 MoE（子解法7）
     └─▶ 再给长尾词提权 —— Embedding 权重共享 + Scale（子解法8）

看得出：

前两层像链条（必须先保证因果、再拉长上下文）；

后面几招更像并列网络（想快就选 FlashAttention，想大就上 MoE）。

3. 有没有“书上没写”的隐性方法？

关键步骤	藏得最深的细节	我给它起的“关键方法”
FlashAttention 真正提速靠块式重排 + 硬件对齐，论文一笔带过	确保访存 stride 与 TensorCore 128 B 对齐	Memory‑Aligned Block Attention (MABA)
SwiGLU 想学到多阶非线性，背后得双路权重初始化（激活路 + 门控路）	不然会在早期把门锁死	Dual‑Init Trick

4. 有没有“隐性特征”？

稀疏激活分布：大模型内部神经元其实大部分时间是“熄火”。MoE 正是利用这点才敢做 1T 参数。

我把它归为 Latent‑Sparsity 特征，教材上通常一笔带过。
位置超出训练窗口时的指数衰减：RoPE/ALiBi 默认假设“越远越不相关”。这假设本身是个隐性条件。

叫它 Distance‑Decay 特征。

5. 潜在局限性，别只背优点

Decoder‑only → 无法一次读完上下文再全局生成，做机器翻译时弱于 Encoder‑Decoder。
RoPE/ALiBi → 上下文越长，旋转角度越密，可能导致长程依赖被过度稀释。
Pre‑LN → 虽稳，但输出分布更“冷”，需要更高 learning rate 微调。
FlashAttention → 强耦合硬件内核，换 GPU 或做量化后不一定兼容。
MoE → 路由错误会让少数专家“饿死”，分布塌缩；推理必须同步所有节点，延迟抖动大。
Multi‑Query → 省显存同时牺牲多头多视角表达，对复杂推理任务略有损耗。
Embedding 权重共享 → 低频词梯度仍稀疏，少数领域词汇学习速度跟不上。

如何优化 Transformer 模型预测速度？

面试高频问：怎么让 Transformer “张嘴说话”更快？

1. “特征 → 子解法” 逐层剖

#	子解法	公式/伪代码核心	之所以用它，是因为…	再举个小例子
1	KV Cache（增量解码）	$\text{Save }K_t,V_t,\; \text{next step复用}$	特征 A：生成是递推，历史 $K,V$ 重复算浪费。	GPT‑3 推理把时序复杂度降到 O(L)。
2	Multi‑Query / Grouped‑Query Attention	$\text{共享};\;Q\text{多头}$	特征 B：每步需拷贝 $K,V$，显存 & 带宽瓶颈。	Llama‑2‑70B 解码显存 ↓ 40%。
3	Flash‑/xFormers Attention	分块 → SRAM，访存 O(N)	特征 C：注意力 O(N²) 算力够，访存拖后腿。	GPT‑4‑Turbo 128k 上下文还能跑 500 tok/s。
4	低精度推理（FP16/BF16→INT8/4）	$W_q = \lfloor W / s \rceil$	特征 D：乘累加多，INT8 每拍只要 FP16 一半带宽。	INT4‑AWQ 对答案一致率掉 <1%。
5	算子融合 & 编译器优化	Fused: [GEMM+SiLU]	特征 E： Kernel 切换多次、PCIe 延迟高。	BetterTransformer 直接把 Attention+投影拼一块，吞吐 ↑ 25%。
6	蒸馏 / 剪枝成小模型	Teacher→Student KL loss	特征 F：参数越少，算越快。	DistilGPT‑2 参数减半，速度翻倍。
7	Speculative Decoding	草稿 $d$→主模型验证	特征 G：大模型一步慢。先用小模型批量猜，再一起校对。	DeepMind Draft‑&‑Verify 速度 ↑ 2‑3×。
8	早停 / 动态 Token 选择	$p_{\text{stop}}(t) > \tau$	特征 H：某些输出 token 已“板上钉钉”，判定后直接 early‑exit。	T5‑eXit 翻译句尾能提前放弃后几层。

2. 子解法之间什么逻辑？——决策树一眼看完

想提速
│
├─ 先砍冗余计算
│   ├─ 历史重算？ → KV Cache (1)
│   └─ 多头重复KV？ → Multi‑Query (2)
│
├─ 再砍访存
│   └─ O(N²)带宽？ → FlashAttention (3)
│
├─ 算子还很慢？
│   ├─ 精度能降？ → 低精度 (4)
│   └─ Kernel太碎？ → 融合/编译 (5)
│
├─ 模型体型过大？
│   └─ 蒸馏/剪枝 (6)
│
└─ 生成 token 本身慢？
    ├─ 先草稿再核验 → Speculative (7)
    └─ 确定性高就早停 → Early‑Exit (8)

前两层像链条：先把重复干掉，再抠访存。
后面几招像并列 toolbox，按需求自由组合。

3. 有无“书上没摆明”的隐性方法？

关键方法	藏在哪	一句话点破
Coalesced‑KV Layout	Multi‑Query 实现细节	把共享 $K,V$ 放成 (B × T × 1 × d) contiguous，避开 head 维 strided 访存。
Block‑Swizzle Prefetch	FlashAttention 里	用 32×N 宏块步进，让下一个 tile 在 TensorCore 计算时就悄悄进 SRAM。
INT8 Dual‑Scale	低精度量化	单一量化尺度 cover 不住激活动态范围，拆成 “主尺度 + outlier 倍增” 两路。

4. 有无“隐性特征”？

Activation Outliers：层输出往往 1% 元素极大值，INT8 不单独处理就爆精度。
我把它记作 Outlier‑Sparsity 特征，对应上面 Dual‑Scale。
Token Entropy 先减后稳：生成到后半句熵会快速收敛，早停策略正是吃这波趋势。
叫它 Entropy‑Decay 特征。

5. 潜在局限，别光说爽点

KV Cache → 上下文太长仍线性涨显存，128k token 也得 2 GB。
Multi‑Query → 牺牲多视角表达，复杂推理 BLEU 会掉 0.5‑1。
FlashAttention → 强耦合 CUDA11+/A100+，老显卡跑不动。
低精度 → 对包含数字、表格的任务误差放大，要额外校验。
算子融合 → 编译器版本锁死升级路径，迁移平台得重编。
蒸馏/剪枝 → 长尾知识显著流失，小众问题回答会露怯。
Speculative → 草稿模型质量差反而多次回滚，得精细平衡。
早停 → 阈值 τ 难泛化，过高漏省流，过低误杀创意 token。

说明 RAG 结合外部知识库与大语言模型提升回答准确性的机制。

开始：想让回答更准？
│
├─ 先能“找到”吗？────────> 语义检索
│        │
│        ├─ 结果太嘈杂？─> 交叉重排
│        │
│        └─ 多轮对话？──> Query  重写
│
├─ 已有证据，模型会“用”吗？
│        │
│        ├─ 推理时用？─> 上下文注入
│        ├─ 还胡编？───> 源证据引用
│        └─ 惯性忽略？─> 检索增强微调

用 RAG 构建问答系统时，如何处理检索内容不相关或不全的问题？

子解法 1：查询重写 / 扩展

特征：提问短、含糊、同义词多。
之所以用查询重写，是因为「原问题信息量不足」这一特征。

子解法 2：稀疏 + 稠密混检（Hybrid Retrieval）

特征：语料既有行业黑话又有普通词，纯 BM25 或纯向量都掉坑里。
之所以用混检，是因为「词面 & 语义双失配」这一特征。

子解法 3：多跳 / 子问分解检索

特征：一个问题里暗藏两步甚至三步推理。
之所以用多跳检索，是因为「跨片段组合事实」这一特征。

子解法 4：Cross‑Encoder 重排

特征：候选文档量大但好坏掺在一起，Top‑k 纯靠向量排序噪声大。
之所以用重排，是因为「初步召回杂音多」这一特征。

子解法 5：迭代反馈（Retrieve‑Read‑Retrieve）

特征：第一次拿到的上下文还不够回答，需要再追问。
之所以用迭代，是因为「一轮检索信息不全」这一特征。

子解法 6：自适应切片 / 滑窗 Chunking

特征：答案跨页跨段，被硬切块切开了。
之所以用自适应切片，是因为「答案跨 chunk」这一特征。

子解法 7：领域微调的专用向量索引

特征：语料里充满行业专有名词，通用模型抓不住。
之所以用领域向量，是因为「领域 shift」这一特征。

子解法 8：缺答提示 & 备用生成

特征：根本检不到相关内容，强答只会胡说。
之所以用缺答提示，是因为「检索置信度过低」这一特征。

举个极简例子👇

问：「β‑blocker 在 CHF 里怎么用？」

子解法1：把 “CHF”　重写成 “congestive heart failure”。

子解法2：BM25 找到教科书 PDF；向量找到了临床综述。

子解法4：Cross‑Encoder 把一篇老论文踢掉，保留最新版指南。

子解法6：自适应切片把指南的表格和脚注拼在一起。

最后 LLM 生成一段可落地的用药步骤。

2. 这些子解法的逻辑链到底像什么？

决策树（文字版）

           ┌─问句长度 ≤ 5 词？─ 是 → 子解法1
Root ─否─→ 检索 Top‑k 余弦分≥阈值？─ 否 → 子解法8
           │
           │─ 是 → 召回数>50？─ 是 → 子解法4
           │                 │
           │                 └─ 跨 chunk 命中率低？─ 是 → 子解法6
           │
           └─ 需要多实体/多 hop？─ 是 → 子解法3
                              │
                              └─ 迭代两轮仍低置信？→ 子解法5

看得出，它不是单线，而是树形网络：先按问题特征分岔，再按检索结果打补丁。

3. 有没有“隐性方法”——书上没强调但实践里必须做的？

检索正交化：稀疏与稠密召回集合做并集，再去重——这一步常被默认，却是效果起飞的关键。
置信度融合：cross‑encoder score 和 dense score 做温度归一化后再线性组合，不做这一步容易把好文档压下去。
Bad‑Case 反向索引：把已知误召片段写进 blocklist；这其实是一种“负面提示”，书上提得少。

以上三步都算隐性关键方法。

4. 有没有“隐性特征”——题面没写，但解法暗中依赖？

文档粒度稳定性：同一源的 chunk 长度差异极大时，跨 chunk 召回容易翻车。
解决它的策略（子解法6）其实假设了“粒度可控”这个隐性特征。
组织校验要求：某些场景要返回出处链接，否则答案再准也过不了审。
这推动了子解法4 + 子解法8 的共存，即“先重排，再缺答提示”。

5. 这一整套方法的潜在局限

算力 & 延迟：Hybrid + Cross‑Encoder + 迭代检索叠加，尾端延迟可能炸。
漂移风险：查询重写太 aggressive，容易越补越歪。
维护成本：领域向量索引要定期重训；Blocklist 要人工维护。
置信度阈值调参：不同语料、不同问题分布，阈值不通用。
用户体验割裂：缺答提示触发得多，会被吐槽“你啥都不知道”。

5 Why 追根溯源

Why‑1：为啥检索不相关/不全？——原始 query 与文档表示失配。
Why‑2：为啥会失配？——用户语言多样，文档粒度不一致。
Why‑3：为啥语言多样？——领域里充斥缩写、同义、行话。
Why‑4：为啥行话阻断匹配？——通用检索模型训练时没覆盖这些分布。
Why‑5：最根本原因？——语料与模型之间的统计分布鸿沟。

所有子解法，本质都是在“补齐或缩短这条鸿沟”。

如何确定 RAG 系统中文档的合适切分粒度？

解法形式
= 子解法 1（标题结构特征）

子解法 2（上下文窗口特征）

子解法 3（语义密度特征）

子解法 4（跨引用特征）

子解法 5（多模态特征）

子解法 6（动态场景特征）

子解法 1：层级标题切分

做法：沿着 H1 → H2 → H3 自然断点切。
之所以用层级标题子解法，是因为文档本来就按标题层级组织，天然的语义边界，切了也不心疼。
例子：API 文档里，每个 endpoint 的标题就是完美的 chunk 边界。

子解法 2：窗口‑重叠滑窗

做法：固定 n token 长度，左右各留 k token 重叠。
之所以用窗口子解法，是因为模型上下文吃不下整篇，得一口一口喂，还要重叠防止句子被锯断。
例子：2000 token 窗口，200 token 重叠，像卷尺一样一路滑过去。

子解法 3：语义密度阈值

做法：先跑 TF‑IDF / embedding 密度，密度过高就再细分，过低就合并。
之所以用密度子解法，是因为有的段落水分太多，有的段落信息爆炸，不调一调，检索就要翻车。
例子：FAQ 里一句话能回答半个问题，直接单句成 chunk；但一堆客套话合并成一段才有意义。

子解法 4：引用保持器

做法：识别「见章节 3.2」这类跨引用，把目标段和来源段打包成一个复合 chunk。
之所以用引用子解法，是因为拆开就断链，检索命中后模型摸不到被引用内容，回答会“失忆”。
例子：法律条款第 16 条引用了第 5 条，俩条必须手拉手一起进索引。

子解法 5：类型感知切分

做法：代码块、表格、图片标签单独抽出来，保持原子性。
之所以用类型感知子解法，是因为文本模型最怕半截代码半截中文，粘一起谁都看不懂。
例子：Markdown 里一个 python 块直接整块成为 chunk，不拆行。

子解法 6：动态再切分

做法：离线先粗切，线上若检索召回过粗，再即席细切（re‑chunk）；反之亦然。
之所以用动态子解法，是因为业务场景会变，今天问概要，明天问细节，静态粒度顾不了所有口味。
例子：客服机器人先返回“产品保修策略” 大块，用户追问细节时后台把这块临时拆成“保修范围 / 流程 / 时长”三小块。

二、这些子解法的逻辑链是谁拉的？

决策树（口头版）

文档有没有明确标题？
- 有 → 子解法 1
- 没有 → 去 2
上下文窗口够不够吃整段？
- 不够 → 子解法 2
- 够 → 去 3
文本密度均匀吗？
- 不均匀 → 子解法 3
- 均匀 → 去 4
有跨段引用吗？
- 有 → 子解法 4
- 没有 → 去 5
含代码/表格/图片吗？
- 有 → 子解法 5
- 没有 → 默认存档；若线上发现召回率或答案粒度不满意 → 子解法 6

就像岔路口一层层筛，到底选哪个子解法，一树就说明白。

三、有没有“隐性方法”？

隐性方法 A：离线‑在线双阶段评价
- 书上常说“先实验再上线”，但是实验指标往往忽略真实对话分布。很多团队背地里加了一道线上 A/B 监控评价，让 chunk 粒度随流量再微调。
隐性方法 B：语境拼接重排
- 有时不是真的切错，而是检索后重排把相关 chunk 临时拼接成超级段。这一步常被埋在检索框里，不说没人知道。

四、有没有“隐性特征”？

隐性特征 X：桥接句
- 某些说明文里一句“综上所述”承上启下，却不属于任何显式标题。拆掉它就失去逻辑跳板，RAG 答复会像断了片。
- 关键方法：用指代分析捕捉这种桥接句，把它跟前后句绑成迷你 chunk。

五、方法的潜在局限

过拟合单一文档类型。
动态再切分耗时，高并发场景可能延迟飙升。
跨引用打包在极端情况下会造成巨型 chunk，把窗口一把塞满。
重叠滑窗膨胀索引体积，成本肉疼。
密度阈值调参需要标注数据，否则容易拍脑袋。

六、起始问题 & 5 Why

核心论点：我们切 chunk 不是为了好看，而是为了让检索命中率和生成答案质量同时在线。

WHY	问题
Why 1	为什么回答跑偏？→ 检索返的 chunk 内容和问题对不齐。
Why 2	为啥对不齐？→ 粒度太大，噪声淹没关键信息。
Why 3	为啥粒度太大？→ 盲目按固定长度切，没管语义边界。
Why 4	为啥不用语义边界？→ 担心切得太碎，召回变差。
Why 5	根本原因？→ 没找到平衡粒度的系统方法 ⇒ 于是本题就来了。

当 RAG 系统知识库数据量大、检索慢时，有哪些提速方法？

1 | 把提速思路拆成一串子解法

提速 = {算法级} + {搜索空间级} + {系统级} + {知识库级} + {查询侧级}

1.1 算法级（检索算得快）

子解法 A1 — HNSW / ScaNN 近似索引
之所以用近似索引，是因为数百万级向量 → 全表扫太慢。
举个例子：把 300 万段文档塞进 HNSW，top‑k 延迟从 2 秒掉到 30 毫秒。
子解法 A2 — PQ / OPQ 量化压缩
之所以用向量量化，是因为CPU/GPU 算 L2 的乘加次数能压 8‑16 倍。
举个例子：128 维→8 * 10 bit 子码，一张 32 GB 显存装下原来 2.5 亿条。
子解法 A3 — “两阶段”：粗排 + 精排
之所以分两段检索，是因为先砍掉 90% 垃圾，再用更准的 rerank。
举个例子：IVF 粗排取 1 k 篇 → Cross‑Encoder 精排 100 篇，只花单模型 3 ms。
子解法 A4 — 混合检索（BM25 + 向量）
之所以混合，是因为关键词过滤能秒级砍掉噪音，向量补语义。
举个例子：先 BM25 过滤“增值税”字段，再用 embedding 找“VAT”。

1.2 搜索空间级（要算的东西少）

子解法 B1 — 分片 / 路由
之所以分片，是因为10 台机器并行扫 1/10 数据比 1 台扫全量快。
举个例子：按公司名称首字母落到 26 个 shard，查询只命中 2‑3 个。
子解法 B2 — 动态 top‑k / 自适应停止
之所以动态 k，是因为很多查询找到 20 条就足够，让搜索早点收手。
举个例子：生成端看到 token‑prob 分布已稳定，立刻 early stop 检索。
子解法 B3 — Query Cache（热点问题缓存）
之所以缓存，是因为业务 FAQ 80% 高复用，直接复读磁盘快。
举个例子：同一问题 1 分钟内问 100 次 → 命中 redis，延迟从 60 ms→3 ms。
子解法 B4 — 离线预检索 / 预拼答案
之所以预检索，是因为可预测问题先做功课，线上只读拼装。
举个例子：电商客服“退货要多久”晚上批量跑，把 top‑k 达成缓存。

1.3 系统级（算力、并发、I/O）

子解法 C1 — GPU / FPGA 距离计算
之所以上 GPU，是因为批量 dot‑product 本来就是矩阵乘。
举个例子：单 A100 比 32 核 CPU 同算量快 25 倍。
子解法 C2 — 多副本并行查询
之所以多副本，是因为P99 延迟通常被最慢 shard 拖累，用冗余可赌快副本。
举个例子：同一查询打到 3 副本 → 取最快那份，长尾掉头。
子解法 C3 — 异步批量化请求
之所以批量，是因为把 128 条 query 堆成一批，GPU 利用率爆表。
举个例子：Flask 请求排队 5 ms，换成批 128 条 + grpc 流式，整体省 40 % 延迟。

1.4 知识库级（库自己瘦身 / 结构化）

子解法 E1 — 层次聚类+摘要
之所以聚类摘要，是因为同主题文档取代表向量，比逐条扫快 N 倍。
举个例子：先用 K‑means 得 10 k 中心点做第 1 路检索，再向下 drill‑down。
子解法 E2 — 冷热分层存储
之所以冷热分层，是因为三个月没人问的旧料迁到慢磁盘，热库变小变快。
举个例子：把 2022 年前历史合同归档到 S3，主库体积减半。

1.5 查询侧级（Query 本身更“易检索”）

子解法 F1 — Query Rewrite / 去冗余
之所以改写查询，是因为长句 embed 会稀释，拆关键信号更易命中。
举个例子：“帮我总结下 2024 年新个人所得税调整方案” → 提取 “个人所得税 2024 新规”。
子解法 F2 — Embedding 复用 + 缓存
之所以复用，是因为同一用户上下文里 query 相似度高，可直接拿上次向量。
举个例子：对话第 n 轮复用第 n‑1 轮的语义向量，只改几个 token。

2 | 这些子解法串成怎样的决策逻辑？

            ┌── 数据 > 1e6 吗？ ──► 否 → 用默认索引即可
            │
            │   是
            ▼
    现延迟主要耗在哪？ (profile)
      ├─ 算法计算 → A1 / A2 / A3 / A4
      ├─ I/O & 并发 → C1 / C2 / C3
      └─ 数据量过大 → ↓
            │
            ├─ 可分片？ → B1
            │
            ├─ 查询可预测？ → B3 / B4
            │
            └─ 主题集中度高？ → E1

一句话：先用 profile 找瓶颈，再在那条支路选子解法，树形决策，逻辑清楚能落地。

3 | 有没有“隐性方法”被大家默默用却很少写进书？

隐性方法 X1 — “向量初选 + 语义压缩并行流水线”
- 步骤：ANN 初筛 → 后台立刻异步跑聚类摘要 → 前台先返回“快速版”答案 → 摘要 ready 后后台更新答案。
- 价值：用户眼里的首帧 < 200 ms，完整答案后台慢慢补齐。
- 关键：流式回填这一环鲜有人提，但对长文极管用。
隐性方法 X2 — “温度路由”
- 冷门 query → 发深度模型；热门 query → 走缓存或浅模型。
- 真正提速点是**“温度分级”路由策略**，不是模型本体。

4 | 有没有“隐性特征”其实左右了方案选型？

特征 H1：流量分布的 Zipf 定律
绝大多数调用集中在少数问题，直接决定你要不要做 B3/B4 缓存链路。
特征 H2：用户对准实时性的容忍度
如果业务允许 1‑2 秒延迟，C1 GPU 就不是刚需；如果要 < 300 ms P95，系统级优化必上。

这些特征常被埋在“业务假设”里，没有显式写进问题陈述，却是解法成败关键。

5 | 每条方法的潜在局限

近似索引：有召回误差；法规、金融场景对 recall = 100% 有硬性要求。
量化压缩：高压缩比下难兼顾小语义差异，FAQ 对长尾问法容易 miss。
两阶段检索：链路更长，冷启动延迟可能反增；需要批量并发才显优势。
分片：路由错误或跨分片 query 会打满全库，最坏延迟比单库还高。
GPU 加速：算力省了，数据搬运 PCIe 反而成瓶颈；batch size ≤ 4 时收益小。
层次聚类摘要：摘要漂移风险，聚类中心不常更新时易“走样”。
缓存：答案时效性差；法务、政策更新时旧缓存需整体失效。

5 Why 追到最根子

Why 1：为什么检索慢？
‑ 因为 向量比对量太大 + 计算密集。
Why 2：为什么量会这么大？
‑ 业务把全部文档直接 embed，没筛选没分层。
Why 3：为什么没筛选？
‑ 早期数据量小，工程师先求能跑通，后期指数级增长时没及时重构。
Why 4：为什么没及时重构？
‑ 团队缺 DevOps 指标预警，P95 延迟红线晚了两个月才触发报警。
Why 5：根本原因
‑ 缺少面向规模增长的容量规划 & 技术债治理机制。
换句话说：早期没把“速率 vs 数据量”当一等公民，债越滚越大。

起始问题的核心论点

核心论点：RAG 性能瓶颈不是单点技术难题，而是“算法‑系统‑数据”多维组合；
提速解法必须先定位瓶颈，再对应选最匹配的子解法，而不是一股脑换更快的库。

如何协同使用 Transformer 与 RAG 以发挥最佳效果？

1 | 把“协同”拆成一串子解法

最佳协同 = {检索侧 Transformer} + {生成侧 Transformer} + {检索‑生成交互} + {监督/蒸馏链路} + {反馈自学习}

1.1 检索侧 Transformer（找得准）

子解法 R1 — Dual‑Encoder 向量检索
之所以用双塔，是因为 在线检索要高并发、低延迟。
例如：Bi‑Encoder 把 query/文档各自 embed，10 万 QPS 也顶得住。
子解法 R2 — Cross‑Encoder 精排
之所以用交叉塔，是因为 pair‑wise 深交互能补回 Dual‑Encoder 的语义误差。
例如：到 top‑200 再跑 Cross‑Encoder，相关度 NDCG 从 0.45 → 0.71。
子解法 R3 — Retriever‑Adapter 微调
之所以插 Adapter，是因为 业务领域词汇怪，直接全参微调会炸显存。
例如：插 8 MB LoRA，3 小时用 1 块 A10 就把医疗检索 F1 提 5 点。

1.2 生成侧 Transformer（答得好）

子解法 G1 — FiD（Fusion‑in‑Decoder）
之所以把检索结果拼进 Decoder，是因为 不同文档互相补信息，不丢细节。
例如：取 20 段 evidence，全喂进 T5‑XXL，长答案 factual hit 率 +10%。
子解法 G2 — ReACT Prompt（先思考再行动）
之所以让模型写思考链，是因为 把 reasoning 显式化可指导下一轮检索。
例如：模型自问“我还缺事故时间”，于是再搜一次，答案准确率暴涨。
子解法 G3 — Toolformer‑style API 调用
之所以教 LLM 主动触发 /retrieval()，是因为 模型能自己决定“该不该搜”。
例如：天气问答不搜，法规问答自动搜 3 次，整体平均延迟减 30%。

1.3 检索‑生成交互（配合得妙）

子解法 C1 — 生成‑再检索（Generate‑then‑Search）
之所以先生成再回搜，是因为 初版答案里能提取更多精确关键词。
例如：草稿答里出现“Type‑C 3 A”，把它回搜，找到隐藏规格表。
子解法 C2 — 多轮渐进检索（Iterative Retrieve‑Refine）
之所以多轮，是因为 长问题往往一口气拿不到全量证据。
例如：轮 1 搜政策原文，轮 2 只在原文段落里再搜法规解释。
子解法 C3 — 检索门控（Retriever Gating）
之所以门控，是因为 并非每条问题都值得付检索成本。
例如：判定“Who is Cristiano Ronaldo?” 信心 > 0.9 直接凭参数答，不走 RAG。

1.4 监督与蒸馏链路（让俩模型说同话）

子解法 S1 — Retriever→Generator 软标签蒸馏
之所以反向蒸馏，是因为 检索得分可当知识来源，指导生成专注高分证据。
例如：把 top‑k score 做 soft attention bias，指标 BLEU +1.5。
子解法 S2 — Generator 反馈强化检索器
之所以 RL 式反哺，是因为 最终答案才是用户 care 的，Reward 反传更对齐。
例如：Answer 点击率当 reward，DPR 检索器两周训练 recall +8%。

1.5 反馈自学习（自己养自己）

子解法 F1 — Self‑Retrieval 言行对齐
之所以自检，是因为 生成的引用失效会砸招牌。
例如：LLM 产完答案，检索器验证文献 URL；无命中就让 LLM 重写。
子解法 F2 — 错例自动回放
之所以回放，是因为 线下难造“翻车样本”，上线真实错例最宝贵。
例如：用户点“引用无关”→ 样本自动进夜间微调队列。

2 | 这些子解法的决策逻辑（树状）

                  ┌─ 问题单纯事实型？ ─► 是 ─┐
                  │                             │
   收到 Query ────┤                             │→ 走 C3 仅 LLM
                  │                             │
                  └─ 否（复合/长尾） ────────────┘
                             │
                 ┌─ 延迟预算 ≤ 300 ms？ ─► 是 → 选 R1 + 少量 R2
                 │
                 └─ 否（可 1 s 内） ──┬─ 需要长答案？ → G1 + C2
                                       └─ 需要推理链？ → G2 + C1

一句话：先看问题类型，再看业务延迟红线，最后决定“检索几次 + 生成几次 + 谁带谁飞”。

3 | 有无“隐性方法”悄悄起大作用？

隐性方法 X1 — “检索结果动态重写 Prompt”
下一轮查询不只靠 LLM 思考，还实时改写搜索关键词（加年份、术语缩写等）。
这步常被埋在“prompt‑router”，其实是提质提速双赢的要害。
隐性方法 X2 — “引用分片回填”
生成器先丢占位符 <doc_i>，待检索返回后流式替换，首屏 200 ms 到位。
外人只看到“答案秒回”，但真正的难点在流式回填对齐 token‑offset。

4 | 有无“隐性特征”左右方案选型？

特征 H1：知识库稀疏度
文档高度同质 → 单轮检索就够；信息散 → 必须多轮 C2。
特征 H2：答案可追溯性要求
法律/医疗必须每句可溯源 → G1 + Self‑Retrieval 必配；娱乐八卦可放宽。

这俩特征常藏在业务需求文档里，题面不写，但实战必须先打探。

5 | 潜在局限

方法	典型坑
R1 Dual‑Encoder	句式变形较大时 recall 掉坑；要靠增量数据常训常新
G1 FiD	输入长到 20×512 token 就撞显存墙；需 gradient‑checkpoint 或 TPU
C2 多轮检索	链路长，P99 延迟爆；预算紧张的 SaaS 用不起
S2 RL‑Feedback	用户反馈稀疏嘈杂，reward 设计烂就学歪
F1 Self‑Retrieval	双模互验花双倍算力，低流量业务不划算

5 Why 追根溯源

Why 1： 为什么要协同 Transformer 和 RAG？
‑ 因为 单靠参数记忆，知识更新慢、幻觉高。
Why 2： 为什么更新慢？
‑ 模型一次训练动辄数十万 GPU·小时，迭代周期长。
Why 3： 为什么幻觉高？
‑ LLM 在冷门事实上缺监督，生成时只好“自由发挥”。
Why 4： 为什么缺监督？
‑ 长尾知识分布胖尾，同一事实难以被多次标注覆盖。
Why 5： 根本原因
‑ 参数式记忆天生有限，而检索式记忆可外接无限知识库。
二者合体，才把“实时、广覆盖”与“流畅生成”拼成完整能力。

起始问题的核心论点

核心论点： Transformer 与 RAG 要想火花四射，必须“分工明确 + 动态互动”，而非简单把检索结果塞进 Prompt 就完事。

用 RAG 优化模型回答，有哪些实用评估指标？

1. 把“大解法”拆成 8 个子解法 = 评估指标

子解法 1：检索召回率 Recall@k

公式： Recall@k = 已召回相关文档数 / 相关文档总数

特征：最怕该在库里的段落根本没被捞到。
之所以用 Recall，是因为“漏捞”这一特征。

子解法 2：检索精度 Precision@k / Top‑1 Acc

公式： Precision@k = 已召回相关文档数 / k

特征：Top‑k 里水文太多，模型看了也白看。
之所以用 Precision，是因为“噪音”这一特征。

子解法 3：排名质量 MRR / nDCG

公式（MRR）： MRR = 1/|Q| ∑₍q₎ 1/rank₍q₎

特征：正确文档就在榜单里，但压在第 9 名没人看。
之所以用排名指标，是因为“次序失衡”这一特征。

子解法 4：上下文覆盖率 Coverage

粗算法：覆盖率 = 被引用 token 数 / 答案所需 token 数

特征：答案要拼多片段，结果只把第一段捞上来。
之所以测 Coverage，是因为“多事实拼接”这一特征。

子解法 5：答案‑上下文一致性 Faithfulness / Grounding

思路：LLM 逐句对照检索片段，算一致性概率或人工 Likert。

特征：模型爱瞎编，明明没检到还一本正经。
之所以测 Faithfulness，是因为“幻觉”这一特征。

子解法 6：答案正确度 EM / F1 / ROUGE‑L

特征：有唯一参考答案的任务，比如 FAQ、SQuAD‑风格。
之所以用 EM/F1，是因为“可以对标金标”这一特征。

子解法 7：人类可用性 Helpfulness / 完整度 / 阅读体验

特征：开放式问答，没有唯一真理，得看用户爽不爽。
之所以做人工评分，是因为“主观满意度”这一特征。

子解法 8：效率指标 Latency & Cost

特征：线上服务要钱要命；慢 500 ms 用户就走。
之所以量延迟/成本，是因为“上线可运营”这一特征。

举个栗子👇

问：「Explain why the sky is blue.」
Recall@k：是否把瑞利散射那段百科条目捞上来。
Precision@k：Top 3 里有没有掺进股票新闻。
MRR：瑞利散射排第 1 还是第 7。
Coverage：有没有把“波长短→散射强”这句也带上。
Faithfulness：答案声明“臭氧导致蓝色”就凉了。
EM/F1：如果有官方教材答案就能硬对齐。
Helpfulness：人类打分「读完秒懂」给 5 星。
Latency/Cost：整链跑完 300 ms，单答 0.2 ¢。

2. 这些子解法的逻辑链 —— 决策树（文字版）

         ┌─ 问题有官方答案？─ 是 → 子解法6
Root ─否─→
         │
         └─ 召回率 < 阈值？─ 是 → 子解法1
                                   ↘
                            噪音比 > 阈值？─ 是 → 子解法2
                                   ↘
                            正文排名靠后？─ 是 → 子解法3
                                   ↘
                            多片段答案？─ 是 → 子解法4
                                   ↘
                            模型引用不足？─ 是 → 子解法5
                                   ↘
                            最终用户体验？─ 看人工 → 子解法7
                                   ↘
                            环境要求 ≤ 200 ms？─ 否 → 子解法8

能看出它是条 树形网络：先看任务有没有金标，再逐级排查检索、生成、体验、效率。

3. 隐性方法（关键但书上常略过）

自动金标生成：用 GPT‑4o 给未标注数据自动做“半金标”，再跑 EM/F1。
置信度加权综合分：把 Recall、Precision、Faithfulness 线性融成统一评分，方便 A/B。
负样本对照：故意投喂噪音文档，在 Score 里抓幻觉率——比单看准确率更敏感。

4. 隐性特征

片段长度波动：chunk 有的 100 词，有的 1000 词，直接影响 Coverage 与 Faithfulness。
用户耐心阈值：B2B vs B2C 场景里，Latency 上限差一倍；决策树暗中假设“用户愿等多久”。

5. 潜在局限性

自动指标≠真实体验，Recall 高不代表答案好读。
Faithfulness 仍靠 LLM 判别，自己给自己打分可能自嗨。
人工标注烧钱，尤其多语言场景。
覆盖率/一致性没有行业统一公式，横向比较难。
Latency 优化常与 Recall / Precision / Faithfulness 冲突，难三全。

5 Why 追根溯源

Why‑1：为啥要这么多指标？——RAG 有两条链（检索+生成），坏点多。
Why‑2：为啥坏点多？——检索错、生成编、用户等不及，各有坑。
Why‑3：为啥这些坑常出现？——信息分布与模型能力错位。
Why‑4：为啥会错位？——语料异构、任务多样，单一指标盲区大。
Why‑5：根本原因？——没有一个指标能同时量到“找得准、说得真、读得爽、跑得快”。

所以才拆成八把扳手，对症下药。

如何清洗 Transformer 模型训练数据中的噪声？

一、按照逻辑关系拆解【解法】

解法公式 =

子解法 1（语种特征）

子解法 2（标记特征）

子解法 3（重复特征）

子解法 4（长度／分布特征）

子解法 5（有害内容特征）

子解法 6（隐私特征）

子解法 7（模板／代码特征）

子解法 8（机器痕迹特征）

子解法 9（主题漂移特征）

子解法 10（训练损失特征）

子解法 1：语言识别筛选

做法：fastText / langid / embedding 聚类，保目标语种，丢旁支。
之所以用语种子解法，是因为非目标语=模型看天书，噪声一锅端。
例子：中文大模型看到西班牙语推文？直接挥手再见。

子解法 2：HTML & 脚本剥壳

做法：正则 + Gumbo parser 剥标签，脚本/广告节点全删。
之所以用标记子解法，是因为模型要文本，不要<div>。
例子：爬来的知乎回答混着 200 行 CSS？先洗干净再说。

子解法 3：Shingle‑Hash 重复去重

做法：局部敏感哈希 + MinHash 64‑gram，near‑duplicate 一键折叠。
之所以用重复子解法，是因为重复样本放大少数模式，梯度会“鬼打墙”。
例子：新闻站点转来转去的通稿，99% 相似度，只留一份母本。

子解法 4：长度 & Token 分布过滤

做法：设长度上/下限，奇异 token 比例（表情、罕见 Unicode）超阈就踢。
之所以用长度分布子解法，是因为超长碎片撑爆上下文，过短没信息量，怪 token 多半是乱码。
例子：只有“哈哈哈哈哈哈哈哈哈”的微博？留它干吗。

子解法 5：毒性 & 违禁内容屏蔽

做法：Perspective API / 自蒸馏毒性分类器 + 词表黑名单双保险。
之所以用有害内容子解法，是因为脏话、仇恨、非法指令不仅污染权重，还可能合规翻车。
例子：含“去给我买枪炸学校”的句子，秒删别犹豫。

子解法 6：PII 识别与脱敏

做法：命名实体 + 正则（身份证、手机号）→ ‹MASK›。
之所以用隐私子解法，是因为大模型一旦背住别人手机号，GDPR 就敲门。
例子：“李四，身份证 4401××××××××××××××” → “李四，身份证 ‹ID›”。

子解法 7：模板 / 日志 / 代码块识别

做法：行首时间戳模式、log level 关键词、代码 fenced block 全部单独切或丢弃。
之所以用模板子解法，是因为这种结构化噪声占位大、语义少，权重会学歪。
例子：Nginx 访问日志，一行也别剩。

子解法 8：机器翻译 / LLM 自生成痕迹检测

做法：N‑gram 熵异常 + 重复率 + classifier 判定“机器味”。
之所以用机器痕迹子解法，是因为二手 MT 文本语序怪，模型会学到假口音。
例子：“Because of train arrive late I angry am”——典型 Yoda 翻译腔，丢。

子解法 9：语义一致性校验

做法：段内句向量平均余弦相似度 < 0.3 判“主题漂移”，拆或删。
之所以用主题漂移子解法，是因为同一 chunk 里东一句西一句，模型抓不到主轴。
例子：一段里先聊比特币后聊猫砂盆？拜拜。

子解法 10：动态 early‑loss 剔除

做法：训练第 N 步监控 token‑wise loss，持续 3σ 以上的句子回写黑名单。
之所以用损失子解法，是因为模型自己最知道哪句看不懂，自动标“费解”。
例子：loss 曲线里尖刺句——大概率乱码或表情雨，在线剥离。

二、子解法之间是怎样的逻辑链？

决策树（口头版）

是不是目标语？
- 否 → 删
- 是 → 2
含明显标签 / 脚本？
- 是 → 子解法 2
- 否 → 3
和库里已有文本像不像？
- 像 → 子解法 3
- 不像 → 4
长度 & token 分布正常吗？
- 不正常 → 子解法 4
- 正常 → 5
毒性或违禁词？
- 有 → 子解法 5
- 无 → 6
私密信息？
- 有 → 子解法 6
- 无 → 7
模板/代码/日志？
- 是 → 子解法 7
- 否 → 8
机器翻译/自生成味？
- 是 → 子解法 8
- 否 → 9
主题漂移？
- 是 → 子解法 9
- 否 → 10
训练 early‑loss 仍异常？
- 是 → 子解法 10
- 否 → 数据 OK，进训练管线。

三、隐性方法

隐性方法	关键步骤
A. 迁移式噪声教师	先用小型已清洗语料训练 Tiny‑LM，当滤网；分数最低的 5% 直接踢。
B. 语料影子指标	线上训练同步跑影子校验集，指标掉点就追溯源批次回滚。
C. 反向对抗探针	自动生成 typo、emoji 洪流，检验过滤器强度，像渗透测试。

这些招数书上不常写，但很多团队暗搓搓在用。

四、隐性特征

梯度方差尖峰：同一 batch 内梯度方差暴涨，暗示有语义乱流。
层间 perplexity 翻倍：中间层突然看不懂某句，也是一种“模型的 SOS 信号”。

把它们显式化，就得到“梯度噪声探测法”“层间困惑度探测法”两个关键方法。

五、局限性

误杀：过滤器过严，优质长尾知识被删光。
计算贵：MinHash + Toxicity + PII，多套模型跑一遍，钱包在滴血。
区域/文化偏见：毒性阈值在不同语境下失灵，可能硬砍边缘方言。
线上损失剔除延迟：靠早期 loss 信号，低频噪声得过很久才浮现。
监管更新：合规黑名单 yesterday OK，今天违法，需常更新。

六、起始问题 & 5 Why

核心论点：噪声不清，Transformer 学到的不是世界，是垃圾堆。

WHY	问题
Why 1	模型输出胡言乱语？ → 训练时学到噪声模式。
Why 2	为啥学到噪声？ → 数据集里脏数据比例高。
Why 3	为啥脏数据高？ → 大规模网页爬取不加选择。
Why 4	为啥不选择？ → 清洗成本高、过滤体系缺失。
Why 5	根本原因？ → 没有一套特征到方法的系统化噪声过滤框架。

在 RAG 架构中，怎样确保检索信息与大模型生成内容逻辑连贯？

1 | “逻辑连贯”被我拆成 5 组子解法

连贯 = {检索侧对齐} + {Prompt 对齐} + {生成侧对齐} + {跨轮一致性} + {事后校验}

1.1 检索侧对齐（找的料就得对题）

子解法 R‑Align1 — Query Rewriting（结构化槽位）

之所以改写，是因为 原始提问常含口语/歧义槽，得先定位核心槽位。

举个例子：“能解释下新版个税具体怎么扣吗？” → 萃取 “个税 + 2024 新规 + 扣除方法”。
子解法 R‑Align2 — Cross‑Encoder 语义一致精排

之所以上交叉塔，是因为 Dual‑Encoder 虽快但常捞到半相关段，需精排过滤“主题跑偏”。

举个例子：把含“企业所得税”但不含“个人”那批段落统统踢掉。

1.2 Prompt 对齐（喂进去的证据要摆顺）

子解法 P‑Align1 — 证据段 Chunk‑排序

之所以重排，是因为 模型读长上下文易“记后忘前”，必须把核心证据排前。

举个例子：先排法规条文，再排新闻解读，最后是论坛八卦。
子解法 P‑Align2 — Citation‑Tag Prompt 模版

之所以打标签，是因为 显式标 <doc_i> 让 LLM 在生成时引用、而非自由编故事。

举个例子：<doc1>: 第 3 条……，输出里出现 “[1]”，自然连贯。

1.3 生成侧对齐（回答过程别走偏）

子解法 G‑Align1 — Chain‑of‑Thought + Pointer Router

之所以让模型“边想边指”，是因为 思考链能在每步把证据 pointer 粘回去，避免跳逻辑。
举个例子：
```
Thought: 先确认扣除比例 → evidence[1]  
Thought: 再确认起征点 → evidence[2]
```
子解法 G‑Align2 — Answer Verification Decoding

之所以二次校验，是因为 生成时实时跑一个判别头，检测句‑证据一致度，超阈值才放行。

举个例子：判别头打 0.85 分以上才输出该句，否则回滚重写。

1.4 跨轮一致性（多轮对话不自相矛盾）

子解法 C‑Align1 — Conversation Memory Graph

之所以建图，是因为 多轮问答里实体、时间轴错乱最常见，图结构可快速校对。

举个例子：上一轮把“起征点 5000 元”写进图，这轮若生成 8000，就触发重检索。

1.5 事后校验（上线兜底）

子解法 V‑Align1 — Retriever‑in‑the‑Loop Verification

之所以末尾再检索，是因为 生成完还要验证每条 claim 可被检索回相同出处。

举个例子：输出句“按月扣除 5000 元” → 反向检索同句，若 miss 就打“⚠️ 需人工审”。
子解法 V‑Align2 — Embedding Consistency Score

之所以算余弦，是因为 快速量化“答案向量”与“证据向量”是否语义共振。

举个例子：平均相似度 < 0.4 自动降温度重写回答。

2 | 决策树：到底该挑哪招？

        ┌─ 问题需可追溯? ─► 是 ─► 上 P‑Align2 + V‑Align1
        │
收到 Query
        │
        ├─ 对话历史>1轮? ─► 是 ─► 加 C‑Align1
        │
        └─ 业务延迟≤500 ms? ─► 否 ─► R‑Align2 + G‑Align1 + G‑Align2
                                 │
                                 └─ 是 ─► 仅 R‑Align1 + P‑Align1

一句话：越强调可信 / 连贯，就越要多层对齐 + 末尾校验；越追求极速，就砍掉深度校验，用简版流程跑。

3 | 隐性方法，被很多团队默默用

隐性方法 X‑Braid — “证据‑答案动态缝合”
关键步骤：生成器先出粗答案段落占位 {slot_i}；同时后台抓更准证据，再细化填槽。

为什么被忽略：它夹在生成‑检索循环之间，往往被一句“streaming answer”掩盖。
隐性方法 X‑NoiseMask — “对证据加噪声再训练”
关键步骤：故意在训练时把证据删词或换序，让模型学会自动纠错、补逻辑空洞。

隐性特征：噪声比例控制了“生成自洽 vs 过度幻想”的平衡。

4 | 隐性特征，也决定方案好坏

H‑Diversity：证据多样度
同一主题若来自多源（政策+评论+FAQ），模型更易断章取义 → 必须 P‑Align1 排序降噪。
H‑Staleness：知识过期率
若库里更新频率高，事后校验 V‑Align1 就成刚需；否则引用旧规会逻辑断层。

5 | 潜在局限

5 Why 追到根子

Why 1：为什么检索证据和生成输出会跑偏？
‑ 因为 两者是松耦合链路，中间缺显式对齐信号。
Why 2：为什么缺信号？
‑ 早期 RAG 只把 top‑k 文档贴 prompt，没再打标签、也没回链验证。
Why 3：为什么没人加？
‑ 团队 KPI 先看上线速度，延迟指标压死校验链路。
Why 4：为什么延迟压力这么大？
‑ 商业场景秒级互动，超时就流失用户。
Why 5：根本原因
‑ 没把“可信 & 连贯”当一等公民设计，而是事后打补丁。
真要解决，就得把对齐信号嵌进“检索‑prompt‑生成‑校验”整条流水线，而非末端 P.S.。

起始问题的核心论点

核心论点： RAG 要逻辑连贯，关键在“全链路多点对齐 + 动态验证”，而不是单点拼 prompt。

我简直不敢相信自己的眼睛——

不少 Demo 看似“引用齐全”，点开一看，证据说东、答案说西。

归根结底，没对齐，也没人检。

希望这份“拆到毛孔”的笔记，能让你在面试时讲得直白：

“逻辑连贯，不是玄学，是多点把关。”

面试官听完，十有八九会心里 OS：

“行，这孩子是真把坑都踩过。”

在这里插入图片描述

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

火山引擎 ADG 社区

OpenClaw 小白安装指南（Windows版）

（类似一个能自动执行任务的AI机器人），不是游戏。API Key只保存在你本地电脑的加密文件里，不会上传到任何地方。访问：https://github.com/miaoxworld/openclaw-manager/releases。: 一键安装脚本会自动安装Node.js 22+，如果失败，手动下载安装：https://nodejs.org/：在PowerShell中，鼠标右键就是粘贴，不需要按

火山引擎 ADG 社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla

火山引擎 ADG 社区

所有评论(0)

查看更多评论

Debroon

@qq_41739364

已为社区贡献68条内容

25年奇安信大模型面经：通过一些深刻的面试问题，来加深理解！

Debroon

25年奇安信大模型面经：通过一些深刻的面试问题，来加深理解！

简述 Transformer 多头注意力机制理解词间关系的原理?

5 Why：刨根问底

训练 Transformer 时，如何解决梯度消失或梯度爆炸问题？​

1. 拆解 【解法】——先看“问题特征”，再对号入座“具体做法”

子解法 1：残差连接 + LayerNorm

子解法 2： d k \sqrt{d_k} dk​ ​ 缩放 + Xavier/He 初始化

子解法 3：学习率 Warm‑up + 自适应优化器（AdamW / AdaFactor）

子解法 4：梯度裁剪（Clip‑Norm/Clip‑Value）

子解法 5：Pre‑LayerNorm / DeepNorm / ReZero（改网络拓扑）

子解法 6：混合精度 + Loss Scaling

2. 这些子解法的逻辑关系 —— 一棵简单决策树

3. 深挖“隐性方法” & “隐性特征”

4. 可能的局限性

GPT 等模型对 Transformer 结构做了哪些改进以提升生成效果？​

1. 按“特征 → 解法”逐层拆解

2. 子解法之间是怎样的逻辑链？——一棵极简决策树

3. 有没有“书上没写”的隐性方法？

4. 有没有“隐性特征”？

5. 潜在局限性，别只背优点

如何优化 Transformer 模型预测速度？​

1. “特征 → 子解法” 逐层剖

2. 子解法之间什么逻辑？——决策树一眼看完

3. 有无“书上没摆明”的 隐性方法？

4. 有无“隐性特征”？

5. 潜在局限，别光说爽点

说明 RAG 结合外部知识库与大语言模型提升回答准确性的机制。​

用 RAG 构建问答系统时，如何处理检索内容不相关或不全的问题？​

子解法 1：查询重写 / 扩展

子解法 2：稀疏 + 稠密混检（Hybrid Retrieval）

子解法 3：多跳 / 子问分解检索

子解法 4：Cross‑Encoder 重排

子解法 5：迭代反馈（Retrieve‑Read‑Retrieve）

子解法 6：自适应切片 / 滑窗 Chunking

子解法 7：领域微调的专用向量索引

子解法 8：缺答提示 & 备用生成

2. 这些子解法的逻辑链到底像什么？

3. 有没有“隐性方法”——书上没强调但实践里必须做的？

4. 有没有“隐性特征”——题面没写，但解法暗中依赖？

5. 这一整套方法的潜在局限

5 Why 追根溯源

如何确定 RAG 系统中文档的合适切分粒度？​

子解法 1：层级标题切分

子解法 2：窗口‑重叠滑窗

子解法 3：语义密度阈值

子解法 4：引用保持器

子解法 5：类型感知切分

子解法 6：动态再切分

二、这些子解法的逻辑链是谁拉的？

三、有没有“隐性方法”？

四、有没有“隐性特征”？

五、方法的潜在局限

六、起始问题 & 5 Why

当 RAG 系统知识库数据量大、检索慢时，有哪些提速方法？​

1 | 把提速思路拆成一串子解法

1.1 算法级（检索算得快）

1.2 搜索空间级（要算的东西少）

1.3 系统级（算力、并发、I/O）

1.4 知识库级（库自己瘦身 / 结构化）

1.5 查询侧级（Query 本身更“易检索”）

2 | 这些子解法串成怎样的决策逻辑？

3 | 有没有“隐性方法”被大家默默用却很少写进书？

4 | 有没有“隐性特征”其实左右了方案选型？

5 | 每条方法的潜在局限

5 Why 追到最根子

起始问题的核心论点

如何协同使用 Transformer 与 RAG 以发挥最佳效果？​

1 | 把“协同”拆成一串子解法

1.1 检索侧 Transformer（找得准）

1.2 生成侧 Transformer（答得好）

1.3 检索‑生成交互（配合得妙）

1.4 监督与蒸馏链路（让俩模型说同话）

1.5 反馈自学习（自己养自己）

2 | 这些子解法的决策逻辑（树状）

3 | 有无“隐性方法”悄悄起大作用？

4 | 有无“隐性特征”左右方案选型？

5 | 潜在局限

5 Why 追根溯源

5 Why：刨根问底

训练 Transformer 时，如何解决梯度消失或梯度爆炸问题？

1. 拆解 【解法】——先看“问题特征”，再对号入座“具体做法”

子解法 1：残差连接 + LayerNorm

子解法 2： $\sqrt{d_k}$  缩放 + Xavier/He 初始化

子解法 3：学习率 Warm‑up + 自适应优化器（AdamW / AdaFactor）

子解法 4：梯度裁剪（Clip‑Norm/Clip‑Value）

子解法 5：Pre‑LayerNorm / DeepNorm / ReZero（改网络拓扑）

子解法 6：混合精度 + Loss Scaling

GPT 等模型对 Transformer 结构做了哪些改进以提升生成效果？

1. 按“特征 → 解法”逐层拆解

如何优化 Transformer 模型预测速度？

1. “特征 → 子解法” 逐层剖

3. 有无“书上没摆明”的隐性方法？

说明 RAG 结合外部知识库与大语言模型提升回答准确性的机制。

用 RAG 构建问答系统时，如何处理检索内容不相关或不全的问题？

子解法 1：查询重写 / 扩展

子解法 2：稀疏 + 稠密混检（Hybrid Retrieval）

子解法 3：多跳 / 子问分解检索

子解法 4：Cross‑Encoder 重排

子解法 5：迭代反馈（Retrieve‑Read‑Retrieve）

子解法 6：自适应切片 / 滑窗 Chunking

子解法 7：领域微调的专用向量索引

子解法 8：缺答提示 & 备用生成

5 Why 追根溯源

如何确定 RAG 系统中文档的合适切分粒度？

子解法 1：层级标题切分

子解法 2：窗口‑重叠滑窗

子解法 3：语义密度阈值

子解法 4：引用保持器

子解法 5：类型感知切分

子解法 6：动态再切分

六、起始问题 & 5 Why

当 RAG 系统知识库数据量大、检索慢时，有哪些提速方法？

1 | 把提速思路拆成一串子解法

1.1 算法级（检索算得快）

1.2 搜索空间级（要算的东西少）

1.3 系统级（算力、并发、I/O）

1.4 知识库级（库自己瘦身 / 结构化）

1.5 查询侧级（Query 本身更“易检索”）

2 | 这些子解法串成怎样的决策逻辑？

3 | 有没有“隐性方法”被大家默默用却很少写进书？

4 | 有没有“隐性特征”其实左右了方案选型？

5 | 每条方法的潜在局限

5 Why 追到最根子

如何协同使用 Transformer 与 RAG 以发挥最佳效果？

1 | 把“协同”拆成一串子解法

1.1 检索侧 Transformer（找得准）

1.2 生成侧 Transformer（答得好）

1.3 检索‑生成交互（配合得妙）

1.4 监督与蒸馏链路（让俩模型说同话）

1.5 反馈自学习（自己养自己）

2 | 这些子解法的决策逻辑（树状）

3 | 有无“隐性方法”悄悄起大作用？

4 | 有无“隐性特征”左右方案选型？

5 | 潜在局限

5 Why 追根溯源

用 RAG 优化模型回答，有哪些实用评估指标？

1. 把“大解法”拆成 8 个子解法 = 评估指标

子解法 1：检索召回率 Recall@k

子解法 2：检索精度 Precision@k / Top‑1 Acc

子解法 3：排名质量 MRR / nDCG

子解法 4：上下文覆盖率 Coverage

子解法 5：答案‑上下文一致性 Faithfulness / Grounding

子解法 6：答案正确度 EM / F1 / ROUGE‑L

子解法 7：人类可用性 Helpfulness / 完整度 / 阅读体验

子解法 8：效率指标 Latency & Cost

5 Why 追根溯源

如何清洗 Transformer 模型训练数据中的噪声？

子解法 1：语言识别筛选

子解法 2：HTML & 脚本剥壳

子解法 3：Shingle‑Hash 重复去重

子解法 4：长度 & Token 分布过滤

子解法 5：毒性 & 违禁内容屏蔽

子解法 6：PII 识别与脱敏

子解法 7：模板 / 日志 / 代码块识别

子解法 8：机器翻译 / LLM 自生成痕迹检测

子解法 9：语义一致性校验

子解法 10：动态 early‑loss 剔除

六、起始问题 & 5 Why