论文阅读：Reward-Guided Speculative Decoding for Efficient LLM Reasoning

摘要：本文提出Reward-Guided Speculative Decoding (RSD)方法，以解决传统Speculative Decoding因严格无偏性要求导致的高效推理限制。RSD通过引入process reward model放宽draft model的接受条件，以reward而非概率匹配决定token是否被接受，从而减少target model调用次数并保证生成质量。理论分析表明

wa的一声哭了

1025人浏览 · 2025-10-14 09:45:24

wa的一声哭了 · 2025-10-14 09:45:24 发布

Reward-Guided Speculative Decoding for Efficient LLM Reasoning

Speculative Decoding的不足

RSD概括

具体细节

RSD算法流程

token接受

RSD概率分布理论分析

其他

Speculative Decoding的不足

speculative decoding虽然可以加速LLM inference，其要求严格的无偏性，这在概率上和target model完全一致，理论上不会降低生成质量，但是由于严格无偏性的条件过于苛刻，这会导致draft model生成的一些高质量的token即使正确，由于分布差异或概率稍低而被拒绝，进而造成额外的target model的调用代价，这个问题在复杂推理中更为严重。

RSD概括

RSD的核心想法：放宽draft model 生成内容的接受条件，允许有偏接受策略。
具体而言，通过引入一个process reward model，以reward作为接受/拒绝的条件，而不是严格按照概率分布匹配。
这样做的好处也很显然，生成内容接受条件放宽必然带来更多token的接受，进而减少target model调用的次数，同时有process reward model的监督也能保证生成质量。
在这里插入图片描述

这张图可以分为上下两部分看，上半部分是传统Speculative Decoding，下半部分是论文提出的RSD
可以看到上半部分对于draft model生成的每一份draft，都需要调用target model进行验证，而下半部分RSD则是根据reward决定是否调用target model进行生成。

具体细节

RSD算法流程

请添加图片描述
在这里插入图片描述

token接受

token接受的reward阈值。
这里是通过一个 $\omega(\cdot)$ 的权重函数，将reward映射到 $[0, 1]$ ，进而可以使用采样方法。
$w(y_i \mid z_i) = \omega_r(y_i \mid z_i) = \omega(r(y_i \mid z_i))$
在这里插入图片描述
算法2，这里对于 $\omega(\cdot)$ 允许多种实现方式，如阶跃函数或更平滑的函数
对于不同的权重函数作者也讨论了不同实现的好处，同时在table1中给出了不同的权重函数。

对于阶跃函数在理论上最优
对于其他函数则更加平滑

在这里插入图片描述
这里二元阶跃函数是最优的。

RSD概率分布理论分析

进行相关符号的规定：

符号	内容
$\in \mathbb{R}^{l \times d}$	prompt
$\in \mathbb{R}^{L \times d}$	reponse
$y_{1:n}$	$y_1,...,y_n]$
$z_i$	$x,y_{1:i-1}]$
m	draft model
M	target model
$P_m(y_i\|z_i)$	the distribution of draft model sample
$P_M(y_i\|z_i)$	the distribution of target model sample
$r(y_i\|z_i)=r(y_i\|x,y_{1:i-1})$	reward function

较高的奖励值 $r(y_i \mid z_i)$ 表示，在给定输入 $x$ 和之前已生成的步骤 $y_{1:i-1}$ 的情况下，该模型输出与期望的响应更契合的可能性更大。
所以target model M的expect reward应该是大于draft model m
$\mathbb{E}_{y_i \sim \mathbf{P}_M}[r(y_i|z_i)] \geq \mathbb{E}_{y_i \sim \mathbf{P}_{m}}[r(y_i|z_i)], \quad (1)$

理论分析所提出方法的RSD的分布 $P_{RSD}$ ，其由 $P_m、P_M$ 结合
$\mathbf{P}_{\mathrm{RSD}}(y_i \mid z_i) = w(y_i \mid z_i) \mathbf{P}_m(y_i \mid z_i) + v(y_i \mid z_i) \mathbf{P}_M(y_i \mid z_i)$
其中 $w(y_i \mid z_i)$ 是一个权重函数根据draft model输出的reward动态调整，而 $v(y_i \mid z_i)$ 是一个常量，这保证了target model永远都有一部分参与，不至于完全依赖draft model出现断层，换句话始终有target model来兜底。
在这里插入图片描述

其他

只有在target model显著大于PRM时这个方法的效果才会比较明显，因为这里虽然减少了target model的验证步，但是引入了新的开销，PRM获得reward。

智能体开发者社区

中国智能体开发者社区，聚焦智能体与大模型开发，提供前沿资讯、实用工具链、开源项目及行业案例。通过技术沙龙、开发者大赛等活动，促进经验交流与协作，助力开发者快速构建创新智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

智能体开发者社区

OpenClaw 小白安装指南（Windows版）

（类似一个能自动执行任务的AI机器人），不是游戏。API Key只保存在你本地电脑的加密文件里，不会上传到任何地方。访问：https://github.com/miaoxworld/openclaw-manager/releases。: 一键安装脚本会自动安装Node.js 22+，如果失败，手动下载安装：https://nodejs.org/：在PowerShell中，鼠标右键就是粘贴，不需要按

智能体开发者社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla