【免训练&测试时扩展】通过任务算术转移思维链能力

大语言模型（LLMs）已能通过长思维链（CoT）解决复杂推理任务（如数学计算、程序合成），但其生成的推理轨迹准确性直接决定最终答案正确性。事后迭代优化（Post-hoc Iterative Refinement）：模型先生成完整草稿，再通过多轮反馈进行批判和修订（如Self-Refine），但需多次完整前向传播，导致 latency 和计算成本显著增加。内在自校正训练（Training for I

文艺倾年

673人浏览 · 2025-10-15 15:53:37

文艺倾年 · 2025-10-15 15:53:37 发布

在这里插入图片描述

😊你好，我是小航，一个正在变秃、变强的文艺倾年。
🔔本专栏《人工智能》旨在记录最新的科研前沿，包括大模型、具身智能、智能体、强化学习等相关领域，期待与你一同探索、学习、进步，一起卷起来叭！
🚩Paper：REASONING VECTORS: TRANSFERRING CHAIN-OF-THOUGHT CAPABILITIES VIA TASK ARITHMETIC
💻时间：202510
💭推荐指数：🌟🌟🌟🌟🌟
💭开源代码：https://github.com/2020-qqtcg/SRGen

往期精彩专栏内容，欢迎订阅：

🔗【低训练&测试时推理】20251014：测试时针对特定样本进行语言模型优化
🔗【免训练&强化学习】】20250619：训练无关的组相对策略优化
🔗【多智能体&强化学习】20250619：基于统一多模态思维链的奖励模型
🔗【多智能体&强化学习】20250615：构建端到端的自主信息检索代理
🔗【多智能体】20250611：基于嵌套进化算法的多代理工作流
🔗【多智能体】20250610：受木偶戏启发实现多智能体协作编排
🔗【多智能体】20250609：基于LLM自进化多学科团队医疗咨询多智能体框架
🔗【具身智能体】20250608：EvoAgent：针对长时程任务具有持续世界模型的自主进化智能体

简介

大语言模型（LLMs）已能通过长思维链（CoT）解决复杂推理任务（如数学计算、程序合成），但其生成的推理轨迹准确性直接决定最终答案正确性。当前主流提升推理可靠性的方法主要分为两类：

事后迭代优化（Post-hoc Iterative Refinement）：模型先生成完整草稿，再通过多轮反馈进行批判和修订（如Self-Refine），但需多次完整前向传播，导致 latency 和计算成本显著增加。
内在自校正训练（Training for Intrinsic Self-Correction）：通过强化学习（RL）等技术将校正能力嵌入模型参数（如S²R），但需大规模昂贵训练，且仅能在错误生成后干预，属于“被动纠错”。

两类方法均存在反应式（reactive）缺陷：仅在错误发生后进行修正，无法主动规避高风险决策点的错误；且前者开销大、后者训练成本高，难以在实际推理场景中高效应用。

SRGen提出“测试时主动预防错误”的新思路：在 autoregressive 生成过程中，通过动态熵阈值监测实时识别高不确定性token（即推理关键节点），针对这些节点实时优化临时校正向量，在不修改模型参数、不增加额外完整生成轮次的前提下，主动引导模型生成更可靠的token，从源头减少错误传播。

大白话解释：LLM生成文本时像“一次性写作”，写错了只能后续修改；SRGen则像“边写边检查”，遇到不确定的词（如数学推理中的关键公式符号）时，先快速调整思路再写，避免一错到底，且“检查”过程不额外占用太多时间和计算资源。

研究方法

自回归：序列中每个位置的生成仅依赖于之前已生成的部分，即通过逐步预测下一个元素的方式构建完整序列。

SRGen将自反思机制嵌入自回归（Autoregressive, AR）解码过程，每一步生成包含“不确定性监测”和“自反思优化”两个阶段，整体流程如图1所示：

阶段1：动态不确定性监测（Dynamic Uncertainty Monitoring）：定位高风险token
阶段2：自反思优化（Self-Reflective Optimization）：针对性校正token概率分布

在这里插入图片描述

阶段1：动态不确定性监测

不确定性量化指标

采用token预测熵衡量模型对下一个token的不确定性，对于生成步骤 $t$ ，给定前缀 $y_{<t}=(y_0,...,y_{t-1})$ ，下一个token的预测熵定义为：
$H_t = H(p(\cdot | y_{<t}))$
其中 $p(\cdot | y_{<t})$ 是模型对下一个token的概率分布（由softmax输出得到），熵值越高表示模型对下一个token的选择越不确定。

动态阈值计算

为适配不同模型、任务和生成阶段的熵分布差异（如Qwen2.5-Math-7B与Qwen3-32B的熵值范围相差3个数量级），SRGen维护一个大小为 $N$ 的滑动熵窗口 $\mathcal{H}_t = \{H_{t-N},...,H_{t-1}\}$ ，计算窗口内熵的均值 $\mu(\mathcal{H}_t)$ 和标准差 $\sigma(\mathcal{H}_t)$ ，当当前熵满足以下条件时触发自反思：
$H_t > \mu(\mathcal{H}_t) + k \cdot \sigma(\mathcal{H}_t)$
其中 $k$ 为灵敏度超参数（实验中设为4），该规则能有效区分“自然高熵片段”和“异常不确定性峰值”（即推理关键风险点）。

阶段2：自反思优化

校正向量设计

当触发自反思时，引入临时校正向量 $\delta \in \mathbb{R}^d$ （ $d$ 为模型隐藏层维度，初始化为0），将其注入当前步骤的隐藏状态 $h_{t-1}$ ，修改下一个token的logits：
$logits_t' = \mathcal{W}(h_{t-1} + \delta)$
其中 $\mathcal{W}$ 是模型的词汇投影头（LM Head）参数， $\delta$ 仅针对当前高风险token优化，生成后立即丢弃，避免对后续正常生成产生干扰。

双目标混合损失函数

若仅追求“降低不确定性”（如直接最小化下一个token的熵），可能导致模型“盲目自信”——将概率集中到高频但上下文不匹配的token（如数学推理中错误选择公式符号），破坏已有推理轨迹的连贯性；

若仅追求“保持上下文一致”（如强制校正后与已有前缀匹配），则无法有效修正模型对当前高风险token的不确定预测，失去自反思的意义。

为平衡“降低不确定性”和“保持上下文一致性”，设计混合损失 $\mathcal{L}_{SRGen}$ 优化 $\delta$ ：
$\mathcal{L}_{SRGen}(\delta; \lambda, y_{<t}) = (1-\lambda)\mathcal{L}_{CE}(y_{<t};\delta) + \lambda\mathcal{L}_{AEM}(y_{<t};\delta)$

回顾性上下文损失（ $\mathcal{L}_{CE}$ ）：确保校正不破坏已有前缀的语义一致性，计算校正后模型对已有前缀的负对数似然：
$\mathcal{L}_{CE}(y_{<t};\delta) = -\sum_{i=0}^{t-2} log\ p(y_{i+1} | y_{\leq i}, \delta)$
- $y_{<t}$ ：截至当前步骤 $t$ 的已生成前缀（即 $y_0, y_1, ..., y_{t-1}$ ），是模型推理的“历史轨迹”；
- $i$ ：遍历前缀中每个token的索引，范围从 $0$ 到 $t - 2$ （因需预测 $y_{i+1}$ ，故最后一个前缀片段为 $y_{\leq t-2}$ ，对应预测 $y_{t-1}$ ）；
- $p(y_{i+1} | y_{\leq i}, \delta)$ ：加入校正向量 $\delta$ 后，模型基于前缀 $y_{\leq i}$ 预测下一个token $y_{i+1}$ 的概率，其计算过程为：
  $p(y_{i+1} | y_{\leq i}, \delta) = softmax(\mathcal{W}(h_i + \delta))_{y_{i+1}}$
  其中：
  - $h_i$ ：前缀 $y_{\leq i}$ 经过模型编码器后输出的隐藏状态（包含该前缀的语义和逻辑信息）；
  - $\mathcal{W}$ ：模型的词汇投影头（LM Head）参数，负责将隐藏状态映射为词汇表维度的logits；
  - $softmax(\cdot)$ ：将logits转换为概率分布，确保所有token的概率和为1；
  - $[\cdot]_{y_{i+1}}$ ：取概率分布中对应真实token $y_{i+1}$ 的概率值。

$\mathcal{L}_{CE}$ 本质是校正后模型对已有前缀的“预测误差”：

若 $\delta$ 的校正方向合理，模型对已有前缀中每个 $y_{i+1}$ 的预测概率 $p(y_{i+1} | y_{\leq i}, \delta)$ 会接近1， $log\ p(\cdot)$ 接近0， $\mathcal{L}_{CE}$ 值较小；

若 $\delta$ 破坏上下文一致性（如让模型在数学推理中突然改变公式符号），则 $p(y_{i+1} | y_{\leq i}, \delta)$ 会显著降低， $log\ p(\cdot)$ 接近负无穷， $\mathcal{L}_{CE}$ 值急剧增大，从而通过损失优化“惩罚”这种不合理的校正。

前瞻性熵最小化损失（ $\mathcal{L}_{AEM}$ ）：直接降低当前高风险步骤的不确定性，最小化下一个token的预测熵：
$\mathcal{L}_{AEM}(y_{<t};\delta) = H(p(\cdot | y_{<t}, \delta))$
其中 $H(\cdot)$ 是熵函数，用于量化概率分布的不确定性，对于离散概率分布 $p (v)$ （ $v$ 代表词汇表中的任意token），熵的定义为：
$H(p(\cdot | y_{<t}, \delta)) = -\sum_{v \in V} p(v | y_{<t}, \delta) \cdot log\ p(v | y_{<t}, \delta)$
（ $V$ 为模型的词汇表）
同时， $p(\cdot | y_{<t}, \delta)$ 的计算与 $\mathcal{L}_{CE}$ 中一致，但聚焦于当前步骤的隐藏状态：
$p(\cdot | y_{<t}, \delta) = softmax(\mathcal{W}(h_{t-1} + \delta))$
- $h_{t-1}$ ：已生成前缀 $y_{<t}$ 对应的最后一个隐藏状态（即步骤 $t - 1$ 的隐藏状态），直接决定模型对步骤 $t$ token的预测；
- 与 $\mathcal{L}_{CE}$ 不同，此处 $p(\cdot)$ 是整个词汇表的概率分布（而非单个真实token的概率），熵值直接反映模型对“下一个token该选谁”的不确定程度。

熵的特性：若模型对下一个token高度确定（如数学推理中“ $121$ 的平方根是 $11$ ”， $p (11) \approx 1$ ，其他token概率≈0），则熵 $H(\cdot)$ 接近0；若模型高度不确定（如无法判断下一步该用“ $+$ ”还是“ $\times$ ”，两者概率均≈0.5），则熵 $H(\cdot)$ 接近 $log\ 2≈0.69$ ，值越大表示不确定性越高；

优化目标：通过最小化 $\mathcal{L}_{AEM}$ ，迫使模型在加入 $\delta$ 后，对当前步骤 $t$ 的token预测分布“更尖锐”——即让正确token的概率集中，错误token的概率降低，从而从源头避免高风险错误的生成。

完整算法流程

初始化：输入预训练模型 $M$ （含LM Head $\mathcal{W}$ ）、提示 $x_0$ ，初始化生成序列 $y=\empty$ 、步骤 $t = 1$ 、大小为 $N$ 的熵滑动窗口 $E=\empty$ ，设置超参数（ $k$ 、 $\lambda$ 、优化步数 $T$ 、学习率 $\eta$ 、温度 $\tau$ ）。
生成循环（直到生成EOS或达到最大长度）：
- 计算当前前缀 $x_{0:t}$ 的最后隐藏状态 $h_{t-1} = M(x_{0:t})$ ，投影为logits $\mathcal{W}h_{t-1}$ ，计算预测熵 $E_t = Entropy(softmax(z/\tau))$ 。
- 触发判断：若窗口 $E$ 已满且 $E_t > \mu(E) + k\sigma(E)$ ，进入自反思优化：
  - 初始化 $\delta=0$ ，迭代 $T$ 次优化：
    - 计算 $\mathcal{L}_{CE} = -\sum_{j=0}^{t-2} log\ p(x_{j+1} | x_{0:j}, \delta)$ ；
    - 计算 $\mathcal{L}_{AEM} = - \sum_{v \in V} p(v | x_{0:t}, \delta) log\ p(v | x_{0:t}, \delta)$ （ $V$ 为词汇表）；
    - 计算混合损失 $\mathcal{L} = (1-\lambda)\mathcal{L}_{CE} + \lambda\mathcal{L}_{AEM}$ ，反向传播更新 $\delta = \delta - \eta \nabla_{\delta}\mathcal{L}$ 。
- 生成token：若触发优化，使用 $\mathcal{W}(h_{t-1} + \delta)$ 采样 $y_t \sim softmax(z/\tau)$ ；否则直接用原始 $z$ 采样。
- 更新状态：将 $y_t$ 追加到 $y$ ，更新前缀 $x_{0:t+1} = x_{0:t} \oplus y_t$ ， $t = t + 1$ ，将 $E_t$ 加入窗口 $E$ 并保留最近 $N$ 个值。
输出：返回生成序列 $y$ 。

在这里插入图片描述

计算开销优化

SRGen的开销主要来自 $\delta$ 的实时优化，公式为：
$\approx N_{act} \times T \times C_{bp}$
其中 $N_{act}$ 是自反思触发次数（仅高风险token触发，稀疏性高）、 $T$ 是 $\delta$ 优化步数（实验中设为3）、 $C_{bp}$ 是单次反向传播成本。实验表明，整体开销稳定在约50%，远低于事后迭代优化的“倍数级开销”。

实验设计

验证SRGen在不同模型、不同数学推理任务上的有效性、通用性、与其他方法的兼容性，以及开销可控性。

模型名称	规模	架构	训练范式
Qwen2.5-Math-7B	7B	Qwen	SFT（数学微调）
DeepSeek-R1-Distill-Qwen-7B	7B	Qwen	蒸馏+RL（推理强化）
DeepSeek-R1-Distill-Llama-8B	8B	Llama	蒸馏+RL（推理强化）
Qwen3-32B	32B	Qwen	SFT（通用微调）

任务选择（高难度数学推理，需长思维链且错误易传播）

AIME2024/AIME2025：美国数学邀请赛，需多步骤代数、几何计算；
HMMT2025：哈佛-麻省理工数学竞赛，含复杂逻辑推理；
AMC：美国数学竞赛，基础但需精准步骤；
MATH500：数学推理数据集，用于消融实验和兼容性验证。

实验参数

生成配置：Qwen2.5-Math-7B最大长度4096 token，其他模型32768 token；温度 $\tau=0.6$ （部分实验 $\tau=0$ ），核采样top-p=0.95；
SRGen超参数： $\delta$ 优化步数 $T = 3$ ，学习率 $\eta=0.01$ ，熵窗口大小 $N = 25$ ，灵敏度 $k = 4$ ，损失权重 $\lambda=0.05$ ；
硬件：NVIDIA A800-80G GPU；
基线：各模型原始生成结果（无SRGen）。

评价指标

Avg@k：k次独立生成的Pass@1平均值，衡量单次生成质量（k=5）；
Cons@k：k次生成结果通过自一致性投票后的准确率，衡量高质量推理路径的收敛性（k=5）；
Pass@k：k次生成中至少1次正确的概率，衡量模型探索能力（k=5）；
** latency**：平均每任务生成时间，衡量计算开销。

结果分析

在这里插入图片描述

Avg@5提升：在AIME2024上，DeepSeek-R1-Distill-Qwen-7B提升12.0%（49.3%→61.3%），Qwen3-32B提升6.0%（76.7%→82.7%）；AMC任务中Qwen2.5-Math-7B提升7.2%（34.0%→41.2%），验证单次生成质量提升。
Cons@5提升：AIME2024上，Qwen2.5-Math-7B提升16.6%（6.7%→23.3%），Qwen3-32B提升10.0%（80.0%→90.0%），说明SRGen生成的推理路径质量更高，自一致性投票效果更优。
Pass@5保持稳定：多数任务中Pass@5与基线持平或小幅提升（如AIME2025上Qwen2.5-Math-7B提升13.7%），证明SRGen仅优化错误路径，不损害模型探索能力。

在这里插入图片描述

计算开销：Qwen2.5-Math-7B在AIME2024上平均每任务触发约6次自反思，额外 latency 稳定在50%，远低于事后迭代优化的“多倍开销”；
兼容性：与SLOT结合时，Qwen2.5-Math-7B在MATH500上准确率从63.8%（基线）→70.6%（SRGen+SLOT），超过单独使用SLOT（64.2%）或SRGen（69.4%），证明其可作为“插件”与其他测试时方法协同。

在这里插入图片描述

消融实验显示： $\lambda \in [0.05, 0.2]$ 、 $\in [25, 40]$ 、 $\in [2.5, 4]$ 、 $\in [3, 7]$ 、 $\eta \in [0.01, 0.1]$ 时，模型准确率稳定在71%±1%，说明SRGen对超参数不敏感，易部署。

📌 [ 笔者 ]   文艺倾年
📃 [ 更新 ]   2025.10.15
❌ [ 勘误 ]   /* 暂无 */
📜 [ 声明 ]   由于作者水平有限，本文有错误和不准确之处在所难免，
              本人也很想知道这些错误，恳望读者批评指正！

在这里插入图片描述

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

Chess用户界面设计：Tailwind CSS样式系统和组件库

GitHub推荐项目精选中的ch/chess是一个类似chess.com的多人在线象棋平台，它采用现代化的前端技术栈构建，尤其在用户界面设计上通过Tailwind CSS样式系统和组件库实现了优雅且功能丰富的交互体验。本文将深入探讨该项目如何利用Tailwind CSS打造一致的设计语言和高效的组件系统，为象棋爱好者提供沉浸式的游戏界面。## 🎨 Tailwind CSS样式系统：构建统一视

火山引擎 ADG 社区

终极指南：GPT-Engineer如何通过AI自动发现代码问题并提升质量

GPT-Engineer是一款强大的AI驱动代码工具，它能帮助开发者自动检测潜在代码问题、优化代码质量，让编程效率提升3倍以上。无论是新手还是资深开发者，都能通过这款工具轻松发现代码中的隐藏缺陷，减少调试时间，释放更多精力在创造性工作上。## 一键发现代码问题：GPT-Engineer的AI审查魔力GPT-Engineer的核心能力在于其内置的智能代码分析系统。通过集成Python代码格式

火山引擎 ADG 社区

SatDump中的纠错编码技术：从RS码到Turbo码的完整实现指南

在卫星数据传输过程中，信号往往会受到各种干扰，导致数据错误。SatDump作为一款通用卫星数据处理软件，集成了多种先进的纠错编码技术，确保从卫星接收到的数据能够准确解码。本文将深入解析SatDump中从Reed-Solomon（RS）码到Turbo码的实现细节，帮助读者理解这些技术如何保障卫星通信的可靠性。## 为什么纠错编码对卫星数据至关重要？卫星与地面站之间的通信链路面临着空间辐射、大