刘子儒博士毕业于香港城市大学数据科学专业,导师为赵翔宇教授及数学家周定轩教授。目前就职于华为香港研究所小艺团队,负责 RLVR 算法与扩散语言模型方向的研究。龚成目前在香港城市大学攻读博士学位,导师为张青富教授。期间在华为香港研究所小艺团队进行研究实习,负责RLVR算法方向的研究。

新一代大型推理模型,如 OpenAI-o3、DeepSeek-R1 和 Kimi-1.5,在复杂推理方面取得了显著进展。该方向核心是一种名为 ZERO-RL 的训练方法,即采用可验证奖励强化学习(RLVR)逐步提升大模型在强推理场景 (math, coding) 的 pass@1 能力。相较于依赖高质量人工数据或从强大模型中提炼出的思维链的监督微调(SFT),基于强化学习(RL)的后训练在增强推理能力方面表现出更强的泛化性。

然而,目前以 Group Relative Policy Optimization (GRPO) 为代表的 RLVR 方法通常面临两个局限点:1. 训练数据难度与模型能力之间存在差距,导致奖励稀疏从而阻碍了学习过程的稳定性。2. 单纯基于 On-policy 强化学习算法的样本效率低下,这对于端侧小模型而言尤为突出。

为此,华为香港研究所小艺团队、诺亚方舟实验室与香港城市大学合作推出了 GHPO 算法框架,实现了在线强化学习与模仿学习的融合,并且能够自适应地进行切换。

图片

  • 论文标题:GHPO: Adaptive Guidance for Stable and Efficient LLM Reinforcement Learning

  • 论文:<-block>https://arxiv.org/abs/2507.10628

  • Github:<-block>https://github.com/hkgc-1/GHPO

  • 数据https://huggingface.co/datasets/hkgc/math3to5_olympiads_aime

GHPO 不仅能大幅提升端侧模型的样本利用效率,同时针对性缓解了目前 RLVR 方法中的奖励稀疏现象。通过难度感知与动态引导模块设计,GHPO 不仅提升了模型训练过程中的稳定性,并且在 6 个不同的开源数学推理 Benchmark 上实现提升,尤其在 GPQA-Diamond 和 AMC23 上分别提升 9% 和 10%。该方法进一步被证明可以适用于不同难度分布的训练数据集与多个模型类别。

图片

一、具体方法

在 RL 中引入模仿学习

源自于对在线强化学习算法与基于模仿学习方法的思考,该团队发现在传统 GRPO 算法的训练过程中,只有正确答案本身被用来提供监督信号,而标准解题过程未被利用。因此,团队提出了一个全新思路:通过将标准解题过程直接整合到强化学习循环中,来解决之前提到的奖励稀疏问题,并进一步提出假设:模型训练过程中通过标准解题过程的提示,从而获得有效的学习信号。并且该方法能提升模型在推理任务上的泛化能力。

后续通过一系列的实验证明该假设确实可行。

GHPO 算法框架

然而,以上的离线方案需要预先将一组训练数据集中的样本进行难度划分,并始终对其应用固定比例的提示。从而导致该方案无法实现全局最优的效果与有效的拓展。因此,该团队进一步提出了引导式混合策略优化(GHPO),实现了动态样本难度评估,并自适应地在强化学习和模仿学习之间切换。

图片

如图所示,GHPO 由两个核心模块组成:

  • 自动化难度检测该模块评估当前问题的内在难度,从而决定后续的学习过程。该模块不需要提前标准或引入其他大模型作为辅助,仅需要基于每个样本生成的解答的分布即可进行难度分类。该方案既能实现高效训练且随模型能力同步演进。

  • 自适应提示切换根据检测到的难度,该模块通过整合不同级别的标准解题路径来引导模型进行探索学习。团队提出了一种具有多阶段指导的自适应提示优化策略,该策略动态调整提示比例 ω。这种动态提示注入的核心思想是一个由学习阶段控制的线性调度。训练过程中会首先应用一小部分真实解作为初始提示,如果模型未能生成正确响应,提示的长度将在后续阶段逐渐增加。

基于以上的创新方案,GHPO 的目标函数可以表达为以下形式:

图片

这种创新方法确保仅在模型真正需要时才提供对应指导,为模型当前能力范围内的任务保留了有价值的探索,同时为更具挑战性的场景提供了自适应的优化。

二、评测表现全面超越 GRPO 算法,代码数据全面开源

GHPO 的代码实现基于 Openr1 项目,训练框架的选择为 TRL,使用 vLLM 进行推理加速。团队在 TRL 的代码逻辑上直接实现了 GHPOTrainer,后续有望在 TRL 后续版本上集成。

实验设计上,基于 Qwen2.5-7B-base 模型进行了多种 RLVR 算法的实现,包括 GRPO、DeepScaleR 的课程学习,以及固定比例提示作为基线,并基于开源数据准备了两种不同难度设定的训练集,验证了 GHPO 算法在 6 个主流数学 Benchmark 上的表现:

图片

图片

结果表明 GHPO 算法相较于 GRPO 可以实现平均 4.5% 的性能提升。

图片

同时 GHPO 在训练过程中有着更加稳定的梯度更新。并且团队进一步证明该算法可以应用到其他模型上,如 Qwen2.5-Math-7B。

进一步提供了详细的案例展示:

图片

三、总结与展望:GHPO 推动了强化学习与 SFT 之间的借鉴融合

自从 DeepSeek-R1 问世后,以 GRPO 为代表的强化学习算法一度成为大模型后训练的热点,相较于 SFT,被认为能带来更强的模型泛化能力。GHPO 不仅以一种巧妙地方式缓解了 RLVR 训练奖励信号稀疏带来的训练不稳定问题,同时实现了 on-policy 强化学习与模仿学习的自适应调整,为社区提供重新看待 SFT 与 RL 的视角以及提供两者未来深度融合的可能性,助力人类进一步探索人工智能本质。

之前商界有位名人说过:“站在风口,猪都能吹上天”。这几年,AI大模型领域百家争鸣,百舸争流,明显是这个时代下一个风口!

那如何学习大模型&AI产品经理?

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

只要你是真心想学AI大模型,我这份资料就可以无偿共享给你学习。大模型行业确实也需要更多的有志之士加入进来,我也真心希望帮助大家学好这门技术,如果日后有什么学习上的问题,欢迎找我交流,有技术上面的问题,我是很愿意去帮助大家的!

如果你也想通过学大模型技术去帮助就业和转行,可以点扫描下方链接👇👇
大模型重磅福利:入门进阶全套104G学习资源包免费分享!
在这里插入图片描述

01.从入门到精通的全套视频教程

包含提示词工程、RAG、Agent等技术点
在这里插入图片描述

02.AI大模型学习路线图(还有视频解说)

全过程AI大模型学习路线

在这里插入图片描述

​​在这里插入图片描述

03.学习电子书籍和技术文档

市面上的大模型书籍确实太多了,这些是我精选出来的

在这里插入图片描述

04.大模型面试题目详解

在这里插入图片描述

在这里插入图片描述

05.这些资料真的有用吗?

这份资料由我和鲁为民博士共同整理,鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位,在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利,同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。

所有的视频由智泊AI老师录制,且资料与智泊AI共享,相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。

在这里插入图片描述
在这里插入图片描述

智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念‌,通过动态追踪大模型开发、数据标注伦理等前沿技术趋势‌,构建起"前沿课程+智能实训+精准就业"的高效培养体系。

课堂上不光教理论,还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作,把课本知识变成真本事‌!

在这里插入图片描述
如果说你是以下人群中的其中一类,都可以来智泊AI学习人工智能,找到高薪工作,一次小小的“投资”换来的是终身受益!

应届毕业生‌:无工作经验但想要系统学习AI大模型技术,期待通过实战项目掌握核心技术。

零基础转型‌:非技术背景但关注AI应用场景,计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能 ‌突破瓶颈:传统开发者(Java/前端等)学习Transformer架构与LangChain框架,向AI全栈工程师转型‌。

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

在这里插入图片描述

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐