Beyond Pass@1: Self-play with Variational Problem Synthesis Sustains RLVR 论文笔记
本文提出了一种名为"自我对弈与变分问题合成"(SVS)的新策略,用于解决大型语言模型(LLM)在强化学习可验证奖励(RLVR)训练中的策略熵崩塌问题。研究发现传统RLVR训练虽然能提高Pass@1性能,但会降低生成多样性,限制模型在Pass@k指标上的表现。SVS方法通过在线自我对弈机制,利用模型正确解答自动合成变分问题,同时保持参考答案不变,从而维持训练过程中的策略熵和生成多
Beyond Pass@1: Self-play with Variational Problem Synthesis Sustains RLVR 论文笔记
一、泛读
论文信息
- 标题:Beyond Pass@1: Self-play with Variational Problem Synthesis Sustains RLVR
- 作者:Xiao Liang, Zhongzhi Li, Yeyun Gong, Yelong Shen, Ying Nian Wu, Zhijiang Guo, Weizhu Chen
- 发表会议/期刊:arXiv预印本
- 年份:2025
- 代码仓库:https://github.com/MasterVito/SvS
- 项目主页:https://MasterVito.SvS.github.io
参考文献引用格式
-
英文格式 (IEEE):
X. Liang et al., “Beyond Pass@1: Self-play with Variational Problem Synthesis Sustains RLVR,” arXiv preprint arXiv:2508.14029v2, 2025. -
中文格式 (GB/T7714):
梁晓, 李忠志, 龚烨云, 等. Beyond Pass@1: Self-play with Variational Problem Synthesis Sustains RLVR[J/OL]. arXiv:2508.14029v2, 2025.
摘要分析
英文原文
Reinforcement Learning with Verifiable Rewards (RLVR) has recently emerged as a key paradigm for post-training Large Language Models (LLMs), particularly for complex reasoning tasks. However, vanilla RLVR training has been shown to improve Pass@1 performance at the expense of policy entropy, leading to reduced generation diversity and limiting the Pass@k performance, which typically represents the upper bound of LLM reasoning capability. In this paper, we systematically analyze the policy’s generation diversity from the perspective of training problems and find that augmenting and updating training problems helps mitigate entropy collapse during training. Based on these observations, we propose an online Self-play with Variational problem Synthesis (SVS) strategy for RLVR training, which uses the policy’s correct solutions to synthesize variational problems while ensuring their reference answers remain identical to the originals. This self-improving strategy effectively maintains policy entropy during training and substantially improves Pass@k compared with standard RLVR, sustaining prolonged improvements and achieving absolute gains of 18.3% and 22.8% in Pass@32 performance on the competition-level AIME24 and AIME25 benchmarks. Experiments on 12 reasoning benchmarks across varying model sizes from 3B to 32B consistently demonstrate the generalizability and robustness of SVS.
中文翻译
具有可验证奖励的强化学习(RLVR)最近已成为大型语言模型(LLM)后训练的关键范式,特别是对于复杂推理任务。然而,研究表明,原始RLVR训练虽然提高了Pass@1性能,但却以牺牲策略熵为代价,导致生成多样性降低,限制了Pass@k性能,而Pass@k通常代表LLM推理能力的上限。在本文中,我们从训练问题的角度系统分析了策略的生成多样性,发现增强和更新训练问题有助于缓解训练过程中的熵崩塌。基于这些观察,我们提出了一种用于RLVR训练的在线自我对弈与变分问题合成(SVS)策略,该策略利用策略的正确解答来合成变分问题,同时确保它们的参考答案与原始问题保持一致。这种自我改进策略有效地维持了训练过程中的策略熵,与标准RLVR相比显著提高了Pass@k性能,持续产生长期改进,并在竞赛级别的AIME24和AIME25基准测试中的Pass@32性能上分别实现了18.3%和22.8%的绝对增益。在从3B到32B不同模型规模的12个推理基准测试上的实验一致证明了SVS的通用性和稳健性。
问题描述
本论文旨在解决RLVR训练中的策略熵崩塌问题,该问题导致模型生成多样性降低,限制了Pass@k性能的提升。
解决方法
提出了一种名为"自我对弈与变分问题合成"(Self-play with Variational problem Synthesis,SVS)的策略,该策略利用模型自身的正确解答来合成变分问题,同时确保合成问题的参考答案与原始问题保持一致,从而在RLVR训练过程中维持策略熵和生成多样性。
实验结果
- 在12个推理基准测试上,SVS策略在不同模型规模(3B至32B)上均表现出优于标准RLVR的性能
- 在竞赛级别的AIME24和AIME25基准测试中,Pass@32性能分别提高了18.3%和22.8%
- SVS训练过程中策略熵保持在稳定范围内,没有明显下降或爆炸,表明训练更加可持续
- 在Pass@k扩展实验中,SVS训练的模型在k从1扩展到1024时持续表现优于标准RLVR
结论总结
SVS策略通过在线自我对弈与变分问题合成,有效解决了RLVR训练中的策略熵崩塌问题,维持了生成多样性,显著提高了模型的Pass@k性能,特别是在竞赛级别的复杂推理任务上,证明了自我改进范式在增强LLM推理能力方面的有效性。
TLDR
- 策略熵维持
- 变分问题合成
- 自我改进训练
- Pass@k显著提升
- 推理边界扩展
二、精读
图表、公式、算法
图片
-
图1:展示了使用SVS策略和标准RLVR训练Qwen2.5-32B-Instruct模型在AIME基准测试上的Pass@32和Pass@1性能对比。图表清晰显示SVS策略在训练步骤增加时持续提升性能,而标准RLVR在约450步后性能趋于平稳。这表明SVS策略能够持续改进模型的推理能力,特别是在复杂的竞赛级别问题上。
-
图2:展示了不同数据策略下RLVR训练中的策略熵和Pass@k变化。左图显示增强的训练集(橙色线)能有效减缓策略熵下降,特别是在第300步更新数据后,策略熵停止下降并开始上升。右图显示增强的训练集持续改善Pass@32性能。这证明了训练数据多样性对维持策略熵和提高Pass@k性能的重要性。
-
图3:展示了SVS在训练迭代中的数据工作流程,包括原始问题求解、变分问题合成、合成问题求解和策略更新数据过滤四个主要组成部分。该图直观地说明了SVS如何通过自我对弈方式增强训练数据。
-
图4:通过具体例子展示了一个具有挑战性的原始问题、模型生成的正确解答、基于该解答合成的变分问题,以及对合成问题的奖励塑造策略。这个例子清晰地展示了SVS如何从正确解答中生成变分问题,以及如何评估这些变分问题的质量。
-
图5:展示了标准RLVR和SVS策略在不同模型和数据集上的策略熵轨迹。图表显示标准RLVR(蓝线)策略熵持续下降,而SVS(粉红线)策略熵保持在相对稳定的范围内,证明SVS能有效维持策略熵。
-
图6:评估了AIME-24、AIME-25、Beyond-AIME和MATH-500基准测试上的扩展Pass@k性能。图表显示SVS训练的模型在所有k值上都优于标准RLVR,特别是在k值较大时表现更为突出,证明SVS能有效扩展模型的推理边界。
表格
-
表1:比较了不同模型在具有挑战性的基准测试上使用Pass@1(平均32次)和Pass@32指标的性能。数据显示,在MATH-12k和DAPO-17k数据集上,SVS策略相比标准RLVR在大多数基准测试上都取得了显著提升,特别是在AIME24和AIME25上的Pass@32性能分别提高了16.2%和18.7%(MATH-12k),以及18.3%和22.8%(DAPO-17k)。
-
表2:展示了在主流推理基准测试上,标准RLVR和SVS策略的性能比较,使用了三种训练集和评估了LLaMA-3.1-8B-IT和Qwen2.5-32B-IT模型。结果表明,SVS策略在所有设置下都提升了RLVR性能,在3B、8B和32B模型上分别取得了2.9%、2.4%和2.5%的整体改进。
-
表3:评估了在一般问答和代码基准测试上的性能。结果显示,SVS不仅避免了标准RLVR在一般任务上的性能下降,还在多个一般任务上超越了初始指令跟随模型,表明SVS中的额外问题合成任务有助于防止过度拟合数学推理任务。
公式
-
公式(1):定义了GRPO中每个token的优势计算方式:
A i , t = r i − mean ( { r i } i = 1 G ) std ( { r i } i = 1 G ) A_{i,t} = \frac{r_i - \text{mean}(\{r_i\}_{i=1}^G)}{\text{std}(\{r_i\}_{i=1}^G)} Ai,t=std({ri}i=1G)ri−mean({ri}i=1G)这个公式计算了组级别的归一化奖励,其中 r i r_i ri是响应 y i y_i yi获得的奖励。
-
公式(2):定义了GRPO的最终优化目标:
J GRPO ( θ ) = E x ∼ D , Y ∼ π θ old ( ⋅ ∣ x ) [ 1 G ∑ i = 1 G 1 ∣ y i ∣ ∑ t = 1 ∣ y i ∣ ( min ( k i , t ( θ ) A i , t , clip ( k i , t ( θ ) , 1 − ε , 1 + ε ) A i , t ) − β D KL ( π θ ∣ ∣ π ref ) ) ] \mathcal{J}_{\text{GRPO}}(\theta) = \mathbb{E}_{x\sim D, Y\sim \pi_{\theta_{\text{old}}}(\cdot|x)}\left[\frac{1}{G}\sum_{i=1}^G\frac{1}{|y_i|}\sum_{t=1}^{|y_i|}\left(\min\left(k_{i,t}(\theta)A_{i,t}, \text{clip}\left(k_{i,t}(\theta), 1-\varepsilon, 1+\varepsilon\right)A_{i,t}\right) - \beta D_{\text{KL}}(\pi_\theta||\pi_{\text{ref}})\right)\right] JGRPO(θ)=Ex∼D,Y∼πθold(⋅∣x) G1i=1∑G∣yi∣1t=1∑∣yi∣(min(ki,t(θ)Ai,t,clip(ki,t(θ),1−ε,1+ε)Ai,t)−βDKL(πθ∣∣πref)) 该公式结合了概率比裁剪和KL散度约束,以提高策略优化的稳定性。
-
公式(3):定义了原始问题求解的正确性奖励:
R c ( y i , a ) = I ( Extract ( y i ) = a ) R_c(y_i, a) = \mathbb{I}(\text{Extract}(y_i) = a) Rc(yi,a)=I(Extract(yi)=a)其中 I ( ⋅ ) \mathbb{I}(\cdot) I(⋅)是指示函数, Extract ( ⋅ ) \text{Extract}(\cdot) Extract(⋅)从推理轨迹中提取最终答案。
-
公式(4):定义了合成问题求解的正确性奖励,与公式(3)类似:
R c ( y ^ k , a ) = I ( Extract ( y ^ k ) = a ) R_c(\hat{y}_k, a) = \mathbb{I}(\text{Extract}(\hat{y}_k) = a) Rc(y^k,a)=I(Extract(y^k)=a) -
公式(5):定义了问题合成的初始奖励策略:
R v ( x ^ i j ) = I ( Acc ( x ^ i j ) > 0 ) R_v(\hat{x}_i^j) = \mathbb{I}\left(\text{Acc}(\hat{x}_i^j) > 0\right) Rv(x^ij)=I(Acc(x^ij)>0)这个策略简单地根据策略是否能为合成问题生成正确答案来判断合成问题的质量。
-
公式(6):定义了改进后的问题合成奖励策略:
R v ( x ^ i j ) = I ( acc ^ l ≤ Acc ( x ^ i j , a ) ≤ acc ^ h ) R_v(\hat{x}_i^j) = \mathbb{I}\left(\widehat{\text{acc}}_l \leq \text{Acc}(\hat{x}_i^j, a) \leq \widehat{\text{acc}}_h\right) Rv(x^ij)=I(acc l≤Acc(x^ij,a)≤acc h)这个策略要求合成问题维持适当的难度级别,既不过于简单也不过于困难。
算法
算法1:自我对弈RLVR与变分问题合成(Self-play RLVR with Variational Problem Synthesis)
该算法详细描述了SVS的训练过程,主要包括以下步骤:
- 从训练集中采样问题批次
- 对每个问题生成一组解答并计算正确性奖励
- 识别具有挑战性的问题(解答正确率在特定范围内)
- 利用正确解答合成变分问题
- 对合成的变分问题生成解答并评估正确性
- 根据变分问题的难度分配奖励
- 将原始问题求解、变分问题合成和合成问题求解的数据混合用于策略更新
算法的核心创新在于通过自我对弈方式生成变分问题,并通过奖励塑造确保这些问题既保持与原始问题相同的答案,又具有适当的难度,从而有效维持策略熵和生成多样性。
疑惑点
-
论文第5页提到变分问题合成的详细提示(prompt)在图8中,但在提供的PDF中未找到该图,无法了解具体的提示设计。
-
论文第6页提到奖励塑造策略可以防止策略生成过度提示或直接包含正确答案的合成问题,但没有详细解释如何检测这种情况,特别是当模型生成的问题变得越来越复杂时。
-
论文第7-8页的实验设置中,未详细说明如何选择under-performing问题范围[acc_l, acc_h]和positive synthesis范围[âcc_l, âcc_h]的具体值(12.5%-50.0%和12.5%-62.5%),这些参数的选择依据和敏感性分析缺乏说明。
三、研读
导言
论文的研究背景是大型语言模型(LLM)在复杂推理任务上的能力提升。具有可验证奖励的强化学习(RLVR)已成为提升LLM推理能力的关键范式,但标准RLVR训练存在一个重要问题:它通过牺牲策略熵(即生成多样性)来提高Pass@1性能,导致模型倾向于生成同质化的解答,限制了Pass@k性能的提升,而Pass@k通常代表模型推理能力的上限。
研究动机源于对RLVR训练中策略熵崩塌现象的观察。当策略熵降至零时,模型倾向于为训练问题生成同质化的解答,失去了探索更高级推理轨迹的机会,最终导致Pass@k性能下降,甚至Pass@1性能也会因缺乏进一步探索机会而趋于平稳。因此,维持训练熵和确保Pass@k提升对可持续的RLVR训练至关重要。
论文的核心假设是:熵崩塌和Pass@k性能平稳的主要原因是在有限问题集上进行RLVR训练,策略容易通过重复生成记忆的正确解答来获得奖励,类似于"黑客攻击"RLVR训练。直观上,维持策略熵和生成多样性需要使用广泛多样的问题集,或在每个训练步骤中使用全新的问题。
现有方法
现有的RLVR训练方法主要包括:
-
标准RLVR:如GRPO(Shao等,2024)优化,在固定问题集上训练,导致策略熵下降和生成多样性减少。
-
基于重述的数据增强:使用外部LLM重述原始问题以增加多样性,但可能引入语义不一致,损害参考答案注释的准确性和训练稳定性。
-
熵维持方法:
- Cheng等(2025)提出用基于熵的项增强token优势
- An等(2025)和Chen等(2025)发现适当调整温度有助于维持训练中的rollout多样性
这些方法的局限性在于:
- 人工标注的高质量问题集有限且可能过于简单
- 合成数据缺乏精确的参考答案
- 重述问题可能引入语义不一致
- 现有方法未从训练数据多样性角度系统解决策略熵崩塌问题
本文方法
论文提出的SVS(Self-play with Variational problem Synthesis)策略具有以下创新点:
-
在线自我对弈:策略模型被提示基于其对具有挑战性和表现不佳的训练集问题的正确解答生成变分问题,形成自我改进循环。
-
变分问题合成:由于正确解答必须包含原始问题的所有基本信息,策略自然被鼓励生成具有重述描述和结构但保留原始语义的变分问题。
-
答案一致性保证:变分问题应与原始问题共享相同的黄金答案,确保精确性并消除额外标注计算的需求。
-
奖励塑造:为防止策略生成过度提示或直接包含答案的简化问题,引入奖励塑造约束,要求变分问题维持适当的难度级别。
-
联合训练:策略同时学习解决问题和合成问题,形成强大的自我改进循环。
SVS的工作流程包括三个主要组件:
- 原始问题求解:策略生成解答并识别具有挑战性的问题
- 变分问题合成:利用正确解答合成变分问题
- 合成问题求解:策略尝试解决自己生成的变分问题
这种方法的优势在于:
- 不需要外部指导或蒸馏,完全依靠策略模型自身实现端到端自我改进
- 支持在线数据增强,有效维持训练过程中的策略熵和输出多样性
- 与RLVR算法无关,可灵活整合到其他方法中
实验设计
实验设计全面且严谨,包括:
-
模型和数据集:
- 使用不同规模的模型(3B至32B):Qwen2.5-3B-Instruct、LLaMA-3.1-8B-Instruct和Qwen2.5-32B-Instruct
- 在MATH-12k数据集上训练所有模型,32B模型额外在DAPO-17k数据集上训练
-
实现细节:
- 选择GRPO作为RLVR优化策略,并整合了Clip-Higher、Token-Level Loss和Dynamic Sampling等技术
- 学习率设为1e-6,采样温度固定为1.0
- 每次迭代的采样问题和策略更新的批量大小均为256
- 从每个原始和合成问题生成的解答组大小G,以及从每个响应派生的变分问题组大小G_v均设为8
- 表现不佳问题范围[acc_l, acc_h]设为12.5%-50.0%,变分问题合成的正奖励范围[âcc_l, âcc_h]设为12.5%-62.5%
-
评估:
- 在广泛的数学推理基准测试上评估模型,包括GSM8K、MATH-500、Minerva Math、Olympiad-Bench、Gaokao-2023、AMC、AIME和Beyond-AIME
- 使用Pass@k和Pass@1(平均32次)指标评估模型的高级推理能力
- 采用无偏估计方法减少单次评估的高方差
- 使用混合规则基验证器整合Math-Verify和DAPO验证器
启示点
-
数据多样性的重要性:论文证明了训练数据多样性对维持策略熵和提高Pass@k性能至关重要,这为未来的RLVR训练提供了重要启示。
-
自我改进范式:SVS展示了一种纯自我改进范式,不依赖外部指导或蒸馏,这为LLM能力提升提供了新思路。
-
奖励塑造的必要性:论文发现简单的奖励策略容易被策略利用,通过奖励塑造确保合成问题的适当难度级别是关键。
-
推理边界扩展:SVS显著提高了Pass@k性能,特别是在k值较大时,表明它能有效扩展模型的推理边界。
-
通用性和稳健性:SVS在不同模型规模和基准测试上的一致性能提升证明了其通用性和稳健性。
四、评价
文章价值
-
问题大小:85/100。论文解决的策略熵崩塌问题是RLVR训练中的关键挑战,直接影响LLM推理能力的上限。
-
有效性:90/100。SVS策略在多个基准测试和不同模型规模上都取得了显著的性能提升,特别是在竞赛级别的复杂推理任务上。
-
新意度:85/100。论文提出的自我对弈与变分问题合成策略是一种创新的自我改进范式,不依赖外部指导或蒸馏。
优点
-
理论与实践结合:论文从理论上分析了策略熵崩塌的原因,并提出了实用的解决方案。
-
自我改进范式:SVS完全依靠策略模型自身实现端到端自我改进,不需要外部指导或蒸馏。
-
实验全面:在12个推理基准测试和不同模型规模上的实验证明了SVS的通用性和稳健性。
-
性能显著提升:在竞赛级别的AIME24和AIME25基准测试上,Pass@32性能分别提高了18.3%和22.8%。
-
维持一般能力:SVS不仅提高了数学推理能力,还在一般问答和代码任务上保持或提升了性能。
缺点
-
参数敏感性:论文未详细分析under-performing问题范围和positive synthesis范围参数的敏感性,这些参数的选择可能对性能有显著影响。
-
计算成本:SVS需要额外的变分问题合成和求解步骤,可能增加训练的计算成本,但论文未对此进行详细讨论。
-
提示设计依赖:变分问题合成的效果可能高度依赖于提示设计,但论文未提供足够的提示设计细节。
-
适用性限制:SVS主要针对具有明确答案的推理任务,对于开放式生成或主观评估任务的适用性尚不清楚。
-
长期稳定性:虽然SVS在实验中表现出良好的稳定性,但在更长期的训练中是否能持续维持策略熵尚待验证。
决定
综合评估,这篇论文具有很高的研究价值和实用价值。SVS策略有效解决了RLVR训练中的策略熵崩塌问题,显著提高了模型的Pass@k性能,特别是在复杂推理任务上。论文的理论分析和实验结果都很扎实,提出的自我改进范式为LLM能力提升提供了新思路。尽管存在一些局限性,但这些并不影响论文的整体贡献。因此,这篇论文非常值得深入研读和引用,其方法也值得在实际应用中尝试。
火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐

所有评论(0)