在2025年大模型技术的激烈角逐中,行业正逐步迈入「长思考」的全新阶段。然而,混合专家(MoE)架构与强化学习(RL)技术的融合过程中,长期存在的训练崩溃现象以及奖励数值波动问题,始终是阻碍高性能推理模型发展的关键技术壁垒。9月19日,蚂蚁集团旗下百灵大模型团队正式对外发布并开源了新一代推理模型——Ring-flash-2.0。该模型凭借独创的「棒冰(icepop)」算法,成功打破了训练稳定性的技术瓶颈。在配备1000亿总参数、仅激活61亿参数的架构配置下,不仅实现了128K上下文长度下每秒200+token的极速推理,更在数学推理(AIME竞赛86.98分)、代码生成(CodeForces平台ELO评分90.23)等核心应用场景中展现出可媲美400亿参数稠密(Dense)模型的卓越性能。这一突破性成果标志着MoE长链推理模型首次在技术效果、运行效率与训练稳定性三大维度实现协同突破,为人工智能高性价比推理技术的商业化落地树立了全新行业标杆。

【免费下载链接】Ling-flash-2.0 【免费下载链接】Ling-flash-2.0 项目地址: https://ai.gitcode.com/hf_mirrors/inclusionAI/Ling-flash-2.0

核心技术创新:三大维度解决行业痛点

1. 训练稳定性革命:「棒冰算法」解决MoE+RL训练难题

Ring-flash-2.0最核心的技术突破在于其独创的「棒冰(icepop)」训练算法,该算法通过「双向截断+掩码修正」的创新机制,彻底解决了MoE架构与强化学习结合时普遍存在的训练崩溃难题。具体而言,算法会自动识别并「冻结」那些在训练与推理阶段表现差异过大的Token,阻止其梯度回传对模型整体训练过程造成干扰,从而实现了前所未有的长周期稳定训练。实际效果对比显示:传统GRPO训练方法在运行约100步后便会出现频繁的数值崩溃现象,而采用icepop算法的模型能够在持续训练过程中保持性能稳定提升,这一技术突破使得大规模强化学习训练在MoE架构上的规模化应用成为现实。

2. 极致推理效率:小参数激活撬动大模型性能

Ring-flash-2.0在推理效率方面实现了质的飞跃,其核心优势体现在「小激活,高性能」的架构设计理念上。模型采用1000亿总参数配置,通过高效的MoE架构设计与1/32的专家激活比例,仅需激活61亿参数即可发挥出强大的推理能力,以极小的计算资源消耗撬动了巨大的模型容量。在实际推理速度测试中,该模型在4张H20显卡上处理128K长上下文任务时,生成速度突破200 token/s,使长思维链推理过程接近「实时交互」体验。值得关注的是,随着输出文本长度的增加,Ring-flash-2.0的相对加速优势最高可达7倍以上,这一特性将显著降低大规模推理场景的计算成本,为企业级应用提供了高效经济的解决方案。

3. 科学训练范式:两阶段强化学习打造精准人类对齐

为实现模型性能与人类需求的精准对齐,Ring-flash-2.0采用了创新的Two-staged RL(两阶段强化学习)训练范式。第一阶段通过RLVR(可验证奖励强化学习)技术,将模型的推理能力逼向理论极限,确保核心任务「算得对」;第二阶段则通过RLHF(基于人类反馈的强化学习)技术注入人类偏好,重点优化输出格式规范性、内容安全性和自然语言可读性,最终实现「像人一样思考」的交互体验。这种分阶段训练方案有效解决了长短思维链混合训练时的效率低下问题,确保了模型最终性能的全面优越性。

架构解析与性能评测:稀疏模型树立行业新标杆

Ring-flash-2.0的卓越性能源于其精心设计的技术架构。

图片为Ling-flash-2.0(100B参数)模型架构图,展示其MoE混合专家架构、Grouped-Query Attention、RoPE编码、SwiGLU Feed Forward模块等核心组件及训练目标、激活参数等技术细节。 如上图所示,该架构图详细展示了模型的MoE混合专家架构、分组查询注意力(Grouped-Query Attention)、旋转位置编码(RoPE)以及SwiGLU前馈网络等核心技术组件,同时标注了训练目标与激活参数等关键技术细节。这一高度优化的技术架构充分体现了Ring-flash-2.0在稀疏模型设计上的技术前瞻性,为行业提供了高效推理模型的架构设计范例。

在权威评测中,Ring-flash-2.0以仅61亿激活参数量,展现出超越同级别模型的卓越性能。

柱状图展示Ring-flash-2.0与Gemini-2.5-Flash等模型在AIME 25、LiveCodeBench、CodeForces、Omni-MATH四个任务上的准确率对比,横轴为评测任务,纵轴为准确率百分比。 该柱状对比图清晰呈现了Ring-flash-2.0与Gemini-2.5-Flash等主流模型在AIME 25数学竞赛、LiveCodeBench代码基准、CodeForces编程评测、Omni-MATH数学推理四个权威任务上的准确率表现。通过直观的数据对比,充分证明了Ring-flash-2.0在保持高效推理的同时,能够达到甚至超越更大规模稠密模型的综合性能,为开发者选择推理模型提供了重要参考依据。

具体评测数据显示:Ring-flash-2.0在AIME 2025数学竞赛中斩获86.98分的优异成绩,在CodeForces编程平台的ELO评分达到90.23分,同时在128K长上下文生成任务中实现200+ token/s的极速推理。综合来看,其推理能力已可媲美400亿参数级别的稠密模型,这一成果树立了稀疏模型在高效推理任务中的全新行业标杆。

开源生态与技术展望:构建AI推理新范式

为推动技术生态的开放发展,Ring-flash-2.0已同步开放多个社区下载渠道。开发者可通过OpenCSG社区(https://opencsg.com/models/AIWizards/Ring-flash-2.0)和Hugging Face社区(https://huggingface.co/inclusionAI/Ring-flash-2.0)获取模型权重与技术文档。作为全球领先的开源大模型社区平台,OpenCSG始终致力于打造开放、协同、可持续的人工智能技术生态。其提出的AgenticOps方法论,作为人工智能领域的AI原生方法论,不仅是智能体(Agentic AI)技术的最佳落地实践,更为大模型的高效开发与应用提供了系统性指导框架。OpenCSG的核心产品CSGHub平台,提供模型、数据集、代码与AI应用的一站式托管、协作与共享服务,具备业界领先的模型资产管理能力,支持多角色协同和高效复用,为开发者提供了全方位的技术支持。

Ring-flash-2.0的发布与开源,不仅代表着蚂蚁百灵大模型团队在技术创新上的突破,更预示着大模型推理技术正进入「高效能、低成本」的新发展阶段。随着稀疏模型技术的不断成熟,未来AI推理将在保持高性能的同时,大幅降低计算资源消耗,这一趋势将加速大模型技术在金融、教育、科研等关键领域的深度应用。特别是在数学推理、代码生成等专业场景,Ring-flash-2.0展现出的能力为行业提供了全新解决方案,有望推动相关领域的智能化升级。

展望未来,随着开源生态的不断完善和技术社区的持续贡献,MoE架构与强化学习的融合技术将迎来更多创新突破。Ring-flash-2.0所树立的技术标杆,将激励更多研究者和企业投身于高效推理模型的研发,共同推动人工智能技术向更高效、更智能、更普惠的方向发展,为数字经济的高质量发展注入新的动能。

【免费下载链接】Ling-flash-2.0 【免费下载链接】Ling-flash-2.0 项目地址: https://ai.gitcode.com/hf_mirrors/inclusionAI/Ling-flash-2.0

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐