图片

本文约4500字,建议阅读10分钟
ES 的关键思想是从参数空间而非动作空间进行探索。

过去两年里,“后训练=RL”的观念几乎成了行业默认。很多团队把 PPO、GRPO 写进了自己的 Pipeline,并习惯性地在动作空间里做探索与优化。

这篇论文则把镜头拉回到参数空间:作者将 Evolution Strategies(ES,进化策略)扩展到十亿级参数的全参微调场景,给出与主流 RL 方法的系统对照——在 Qwen-2.5 与 LLaMA-3 家族的多个规模上,ES 更稳、更省样本,且几乎不需要网格化的超参搜索。

对于那些只有终局可观测信号、信用分配困难、RL 易“黑客奖励”的问题,ES 的表现尤其亮眼。作者单位来自 Cognizant AI Lab、MIT 与 UT Austin,研究团队在方法选择、实验对照与工程可复现上都做得相当克制和透明。

Image

论文题目:

Evolution Strategies at Scale: LLM Fine-Tuning Beyond Reinforcement Learning

论文链接:

https://arxiv.org/abs/2509.24372

代码链接:

https://github.com/VsonicV/es-fine-tuning-paper

在这个视频中,作者直观展示了 ES 的核心思想——在参数空间上进行群体探索,通过多次扰动与加权汇聚,实现稳定且无梯度的优化过程。

一、研究背景

RL 的强项与短板同样醒目:它擅长在可验证短视野的任务上学习精细策略,但在长视野、仅结果可观测的场景中往往吃力——梯度估计方差高、信用分配困难、跨运行不稳定、超参数敏感,甚至容易出现“奖励黑客”(reward hacking),生成“短而错”或插入无意义符号的答案。

作者提出的动机很直接:把探索噪声从“动作序列”搬到“参数向量”。一次参数采样决定整段生成轨迹,通过 roll-out 计算奖励,再基于群体加权平均更新参数——不依赖梯度、没有 actor-critic 架构,却能把长期信号打包进一次评估,天然降方差、易并行,也更难被“黑”。

这条路线并非凭空出现。早期的 NES [1] 与 OpenAI-ES [2] 已奠定算法与工程基础,但长期被质疑“无法在十亿级参数空间上稳定跑通”。

这篇工作首次给出了实证证据——在 Qwen-2.5(0.5B–7B)与 LLaMA-3(1B–8B)上,进化策略(ES)实现了稳定的全参微调(full-parameter fine-tuning),为参数空间探索提供了坚实的现实支撑。

二、从基础ES到可扩展全参实现

本节介绍进化策略 (Evolution Strategies, ES) 在大模型微调中的算法框架。整体结构分为三部分:

1. 基础 ES 算法(Algorithm 1)——对参数空间的直接探索;

2. 可扩展工程实现(Algorithm 2)——让“全参 ES” 在十亿级 LLM 上可落地;

3. 行为度量与奖励定义——用于与 PPO/GRPO 等 RL 方法的对齐比较。

2.1 Basic ES(算法主体)

论文采用的是简化版 NES,整体近似 OpenAI-ES。目标是直接在参数空间进行无梯度优化:在第   次迭代,从高斯分布采样   组噪声  ,对模型参数加性扰动并分别评估奖励 

最终更新公式为:

Image

其中   为学习率,  为噪声尺度。论文实现时将   吸收到   中,得到更简洁的形式:

Image

直观理解:模型做 N 次“试探”——给参数加不同噪声,观察哪次更好(奖励更高),再把这些“更有利的方向”平均叠加回去。整个过程不需要反传梯度,也不依赖 actor-critic 结构,优化对象是整段响应的整体质量,特别适合只提供最终奖励的任务。

Image

▲ 图1. 展示ES在每次迭代中的完整流程:采样高斯噪声,对参数扰动、评估奖励,再将奖励加权方向叠加回参数,实现无梯度的全参更新。

算法整体流程如上图所示,展示了从噪声采样到参数更新的完整迭代闭环。

2.2 可扩展实现

基础 ES 虽简单直观,但若直接用于十亿级 LLM,显存与通信成本将极高。为此,作者在 Algorithm 2 中提出七项关键优化,使 ES 能在大模型规模下稳定、可复现地运行。

Image

▲ 图2. 展示可扩展ES的工程化实现流程:通过种子复现、分层扰动与并行评估,实现十亿级参数模型的稳定、可复现微调。

实际实现流程如上图所示,构建在基础 ES 之上,通过多项工程优化让全参搜索在大模型规模下可落地。

七个关键设计如下:

  • 随机种子复现噪声:仅保存每个扰动的随机种子,通过复位 RNG 即可完全还原噪声,从而显著节省显存;

  • 进程级并行评估:将 N 个扰动分配到不同进程或设备,可天然并行化计算,大幅提升采样效率;

  • 分层就地“扰动–评估–还原”:每次仅对一层参数加噪、评估、回滚,峰值显存开销仅与该层大小相关,极大降低内存占用;

  • 奖励 z-score 归一化:为消除任务间与阶段间的尺度差异,对奖励进行标准化处理:

Image

  • 贪心解码评估:在评估阶段采用贪心解码而非采样,以避免性能波动源自解码随机性,而聚焦于参数差异;

  • 分解式参数更新:主进程按“层 × 种子”顺序累加梯度近似,实现显存分解式更新,进一步压低显存峰值。

  • 吸收  :将   并入  ,实现更简洁、更稳定的学习率调度。

这些策略组合形成了“显存换时间”的平衡:每次只在一层上扰动与评估,所有扰动进程并行执行,更新逐层累积。 结果是——即使在十亿级参数模型上,也能把“全参搜索 – 评估 – 更新” 过程稳定、可复现地跑起来。

2.3 行为度量与KL近似

当任务目标涉及行为或风格(而非单纯正确率)时,论文采用两维度量:

  • 平均奖励(衡量目标行为达成度);

  • 相对基座模型的 KL 散度(衡量保持原能力的程度)。 

KL 使用 Schulman (2020) [3] 的近似式:

Image

该近似在不需要 Monte-Carlo 采样的前提下,提供了稳定的行为对齐度量。

2.4 “简洁性”奖励的可核验定义

在“简洁性”任务中,每个问题的可核验集提供一个最短正确答案 

对模型输出 y,定义奖励为:

Image

即输出长度越接近“最短正确答案”,奖励越高。这种定义量化了“趋近正确而不取巧”的能力——鼓励模型生成既正确又简洁的答案,防止出现“更短但错误”的 reward hacking 行为。

小结:这部分通过 Algorithm 1 和 Algorithm 2 层层展开,先给出 ES 在参数空间的核心更新机制,再展示可扩展实现,使得 ES 首次在 LLM 全参微调场景中实现可行与稳定。它以简单、可并行的无梯度优化流程,提供了 PPO/GRPO 之外的一条可靠后训练路径。

三、实验与结果

符号推理:ES稳定高效,样本利用率更优。

Image

▲ 表1. Countdown任务中,Qwen-2.5(0.5B–7B)与LLaMA-3(1B–8B)的准确率对比。ES统一超参,RL逐模型调参。

这组实验首先纠正了一个常被忽视的事实:在小模型段,RL 往往“抬不动”性能,而 ES 依然能显著拉升。例如在最小的 Qwen-2.5-0.5B 上,Base、PPO、GRPO 几乎贴地,ES 却将正确率从 0.3% 提升到 14.4%。

随着模型增大(1.5B、3B、7B 以及 LLaMA-3 的 1B、3B、8B),ES 的领先并未被“规模稀释”——在多数配置下,它都能把曲线整体推高。更关键的是:ES 全线使用统一超参,而 RL 端还针对每个模型做了 (β, α) 网格搜索。在这样“对 RL 更有利”的设定下,ES 仍保持优势,说明差距并非偶然,而是稳定规律。

Image

▲ 图3. 不同模型的训练曲线(横轴为样本评估次数)。ES收敛更快,达到相同性能所需的评估量更少。

如果把视线从最终数值拉回训练过程,会发现另一层差异:ES 更省样本评估。在横轴对齐“总样本评估次数”的条件下,ES 曲线普遍更早离开底部并进入平台区。换句话说,要达到 RL 相同的准确率,ES 通常只需 20% 左右的样本量。

这种效率差来自方法本身:一次参数噪声对应一整段生成轨迹,长程信号被集中地压入单次评估;再叠加小种群(N=30)的并行与加权平均,方差被显著平滑。于是 ES 能更快积累有效梯度,也更容易稳步上升。

综合两张图可见:ES 不仅能“抬起”小模型,还能在中大规模上兼顾性能与效率。从工程视角看,这意味着更低的试错成本、统一的调参策略与更强的跨模型迁移性。

行为对齐:ES的前沿更优、更稳、更干净

Image

▲ 图4. Reward–KL二维前沿。蓝线(ES)整体位于GRPO黑线左上方——在更低KL下取得更高 Reward。ES未显式加KL惩罚。

当目标从“正确率”转向“行为/风格”时,作者使用 Reward 与相对基座 KL 构成二维度量。直觉上,右上角越好:Reward 高、KL 低,代表既学到目标行为,又保留原有能力。

从图中可以看到,ES 的前沿整体覆盖 GRPO 曲线左上区域,即在更低 KL 下获得更高 Reward。更关键的是,ES 即使不在目标函数中显式加入 KL 惩罚,也未出现“投机取巧”的 reward hacking——说明它的优化轨迹本质不同,更像是在参数空间内收敛到一族好解,而非依赖外部约束“强行拉回”。

Image

▲ 表2. Qwen-2.5-7B的“简洁性”任务(4次独立运行)。GRPO在较小β下出现reward hacking,ES未出现黑客,且跨运行方差显著更低。

从定量结果看,GRPO 对 β 异常敏感——β 太小会“黑”奖励,稍大又推高 KL。ES 在完全不引入 KL 惩罚的前提下,既无乱码输出,也保持跨运行稳定。

对部署者而言,这意味着结果更可预测:不必押注“幸运跑次”,也无需为每个基座重新大规模网格搜索 β 与学习率。

Image

▲ 参数幅度变化直方图。Countdown任务变化集中于0附近;在“简洁性”对齐中,多为“小幅改动”。

参数幅度分布揭示了 ES 的“内部动作”:在推理任务中,更新接近“随机游走式微调”,说明信号被群体平均后温和传导;而在行为对齐中,变化集中在大量小幅度区间,暗示大模型行为可能存在冗余编码——无需大迁移即可稳定拧动输出风格。这解释了为何 ES 即使不加 KL 约束,也能保持低遗忘与稳定。

小结:稳定、省样本、可复现

无论在符号推理还是行为对齐中,ES 都展现出一致的优势:

  • 跨模型稳定性强:从 0.5B 到 8B 均能稳定收敛;

  • 样本效率高:达到同等性能所需评估量 ≈ RL 的 20%;

  • 方差小、易复现:多次独立运行结果几乎重合;

  • 抗 reward hacking:无需 KL 约束也保持输出正确性。

这让 ES 成为一种真正可扩展、工程上可落地的后训练路径——在长视野、仅结果可观测的任务中,比传统 RL 更稳、更省、更易复现。

四、总结

这项研究以 Evolution Strategies(ES)为核心,重新审视了后训练阶段的优化路径,也为长期以来由强化学习(RL)主导的范式提供了一种可行的替代方案。

ES 的关键思想是从参数空间而非动作空间进行探索。它以群体采样取代单路径梯度估计,以全局评估取代局部 credit assignment,从而在长视野、仅结果可观测的任务中获得更稳定的优化行为和更高的样本效率。

与 PPO、GRPO 等方法相比,ES 不依赖 actor-critic 结构,也不需要复杂的优势估计或 KL 惩罚项。在 Qwen-2.5 与 LLaMA-3 不同规模的实验中,作者展示了 ES 的一致优势:它能够在统一超参数下稳定跨规模运行,在小模型段显著提升推理准确率,在大模型段维持收敛速度与样本利用率的双重领先。

在“简洁性”行为对齐任务中,ES 甚至在未引入 KL 约束的前提下,依然保持低遗忘与强一致性,几乎完全消除了 reward hacking 问题。

从机制角度来看,ES 的稳定性源于其“群体平均”特性。在每轮迭代中,参数扰动在多个方向上被并行采样与评估,噪声在总体统计中被抵消,留下的更新方向往往是全局一致、方差可控的。这种机制使模型能够以更温和的方式吸收长期信号,同时减少对随机初值与超参数的敏感性。

因此,ES 的贡献不仅在于性能的提升,更在于重新定义了后训练的优化逻辑。它提示我们:在那些奖励稀疏、反馈延迟、梯度难以稳定传播的任务中,全参级的参数空间优化可能比基于梯度的局部更新更具可扩展性与可复现性。

在强化学习方法不断复杂化的当下,ES 的结果反而呈现出一种少见的清晰与稳健——它以简驭繁,用群体探索替代复杂机制,为后训练的下一阶段提供了一个值得深思的方向。

参考文献

[1] Wierstra, D., Schaul, T., Glasmachers, T., Sun, Y., Peters, J., & Schmidhuber, J. (2014). Natural Evolution Strategies. Journal of Machine Learning Research, 15, 949–980. arXiv:1106.4487

[2] Salimans, T., Ho, J., Chen, X., Sidor, S., & Sutskever, I. (2017). Evolution Strategies as a Scalable Alternative to Reinforcement Learning. arXiv preprint arXiv:1703.03864.

[3] Schulman, J. (2020). Proximal Policy Optimization Algorithms. arXiv preprint arXiv:1707.06347.

编辑:黄继彦

关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。

图片

新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐