周四晚8点,和通义千问郑楚杰博士,一起聊聊Qwen3背后的大规模强化学习训练算法GSPO
青稞Talk 第68期,通义千问研究员,Qwen3、QwQ系列开源模型核心贡献者郑楚杰,将直播分享《
·
青稞社区主页:https://qingkeai.online/
原文:https://mp.weixin.qq.com/s/MPuc8kjwAjPYGSdyHrkbqg

论文:Group Sequence Policy Optimization
链接:https://www.arxiv.org/pdf/2507.18071
分享嘉宾

郑楚杰,通义千问研究员,Qwen3、QwQ 系列开源模型核心贡献者。2025年博士毕业于清华大学,师从黄民烈教授。曾获2025年WAIC云帆奖·明日之星、ACL 2025 SAC Award。研究方向为大模型推理、对齐与强化学习。在ICLR、ICML、ACL等国际会议发表论文10余篇,谷歌学术引用量5300余次,长期担任ACL、EMNLP、NAACL等会议领域主席。
火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐
所有评论(0)