MM-UPT是一种创新的多模态大模型无监督训练框架,通过"多数投票"自奖励机制和GRPO在线强化学习算法,使模型仅利用无标签数据或自身合成数据实现自我提升。该框架已被NeurIPS 2025接收,实验表明在多个基准测试上表现优异,接近有监督训练方法,适用于不同模型,为多模态大模型持续进化提供了摆脱"数据标注"的全新范式。

前排提示,文末有大模型AGI-CSDN独家资料包哦!

自多模态大语言模型(MLLM)问世以来,它们在图像描述、视觉问答等任务中展现了惊人的能力。为了进一步提升模型性能,尤其是在复杂的多模态推理任务上,学术界和工业界的主流范式是监督微调(SFT)或强化学习(RL)。然而,这些方法严重依赖于海量、高质量、且经过人工精细标注的多模态数据。随着模型能力的不断提升和应用场景的日益复杂,获取此类标注数据的成本变得极其高昂,甚至成为限制模型持续发展的瓶颈。

一个亟待解决的问题是:我们能否摆脱对外部标注数据的依赖,让多模态大模型在没有“标准答案”的情况下,实现持续的自我提升?为了应对这一挑战,来自上海交通大学、里海大学等机构的研究团队提出了一种简洁而高效的多模态大模型无监督训练后优化框架 MM-UPT。该框架首次将稳定且可扩展的在线强化学习算法 GRPO 应用于 MLLM 的无监督自我改进场景。MM-UPT 使用了一种基于“多数投票”的自奖励机制,取代了传统的外部奖励信号,使模型能够仅利用无标签数据,甚至完全由自身合成的数据,就能有效提升其核心的推理能力。

本工作已被 NeurIPS 2025 (机器学习三大顶会之一,CCF-A 类) 会议接收。论文第一作者为上海交通大学 MIFA 实验室的博士生魏来,通讯作者为上海交通大学 MIFA 实验室的黄维然副教授。

  • • 论文标题:Unsupervised Post-Training for Multi-Modal LLM Reasoning via GRPO
  • • 论文链接:https://arxiv.org/abs/2505.22453
  • • 代码链接:https://github.com/waltonfuture/MM-UPT

为什么需要无监督的自我进化?

大模型的持续进化如同一个求知欲旺盛的学生,需要不断“刷题”来提升能力。在传统模式下,每刷一道题,都需要一位“老师”(即人工标注)来告知正确答案。这种模式虽然有效,但“老师”的精力和时间是有限的,高质量的“题库”(标注数据)总有被耗尽的一天。

因此,一个更理想的模式是,让模型学会“自我反思”和“自我订正”,即在没有标准答案的情况下,通过自己的思考来判断答案的优劣,并从中学习,实现自我进化。这不仅解决了数据稀缺的难题,更为模型的规模化、自动化和持续性发展开辟了一条全新的道路。MM-UPT 正是沿着这一思路,探索如何让 MLLM 在多模态推理这一极具挑战性的领域实现真正的自我提升。

MM-UPT 的工作原理

MM-UPT 框架的核心思想是:用群体智慧生成内部奖励信号,驱动模型自我优化。它巧妙地将在线强化学习算法 GRPO 与“多数投票”(Majority Voting)的机制结合起来。这一思想也在一些同期工作(如 TTRL,SRT)中运用。

具体流程如上图所示:

  • 生成多样性回答:针对一个无标签的多模态问题(例如,一张几何图和一道题目),MLLM 会被要求生成多个(例如 G 个)不同的回答。
  • 群体决策:通过一个简单的“多数投票”机制,从这 G 个回答中选出出现频率最高的那个,并将其作为“伪标签”(Pseudo-label)。这个过程类似于一个专家小组讨论后,将共识性的答案作为最可靠的结论。
  • 构建自我奖励信号:根据每个回答是否与这个“伪标签”一致,系统会生成奖励信号。与伪标签一致的回答将获得正奖励(例如+1),不一致的则获得零奖励或负奖励。
  • 强化学习训练:这个内部生成的奖励信号随后被输入到 GRPO 算法中,用于更新模型参数。通过这种方式,模型被激励去产生更稳定、更一致、更接近群体共识的高质量回答,从而在没有外部监督的情况下实现了能力的迭代提升。

这个循环让模型能够基于自身的认知共识进行学习和迭代,有效地利用了无标签数据。除了无监督后训练的算法之外,研究团队也探索了让 MLLM 自行合成全新、无标签训练数据的能力,并参考 self-instruct 设计了两种合成策略:

  • 上下文合成 (In-Context Synthesizing):给模型提供一个完整的原始样本(包含图像、问题和答案),然后要求它基于此上下文,生成一个与原始问题不同的新问题。这类似于举一反三,对现有知识进行变体和拓展。
  • 直接合成 (Direct Synthesizing):更进一步,只给模型提供一张图像,让它在没有任何文本上下文的情况下,完全基于视觉内容独立地提出一个新问题。这极大地考验和激发了模型的创造力。

通过这两种方式生成的合成问题(如上图所示),构成了全新的、可以源源不断合成的无标签“题库”。这些“题库”随后被送入上文提到的“自奖励学习循环”中,驱动模型在新问题上进行新一轮的自我学习和进化。

综上,MM-UPT 通过自奖励学习循环和数据自造引擎的有机结合,构建了一个从利用现有无标签数据,到主动创造新数据,再到从新数据中学习的完整闭环,为多模态大模型实现真正意义上的、可规模化的持续自我改进开辟了一条全新的道路。

MM-UPT 的实验效果

为了验证框架的有效性,研究团队在多个权威的多模态数学推理基准(如 MathVista, MathVision 等)上进行了广泛实验。

在无标签标准数据集上效果显著

实验首先模拟了“有题无解”的场景,即使用标准数据集但隐去所有答案。结果如下表所示,基于 Qwen2.5-VL-7B 模型,MM-UPT 取得了全面的性能提升(例如,在 MathVista 上从 66.3% 提升至 72.9%)。更重要的是,MM-UPT 的性能不仅显著优于其他无监督基线方法(如 LMSI, Genixer 等),甚至在多个数据集上逼近了使用标准答案进行训练的监督方法(Supervised GRPO)。这充分证明了多数投票机制作为伪奖励信号的有效性。

“自产自销”的数据也能驱动成长

MM-UPT 的终极目标是实现完全的自主进化。为此,研究团队进一步探索了仅使用模型自身生成的合成数据进行训练的潜力。

上表结果显示:使用“上下文合成”(In-Context Synthesizing)和“直接合成”(Direct Synthesizing) 这两种类型的合成数据训练的模型,其性能同样获得了显著提升,并且效果与使用原始人类创建的问题相当,甚至在某些情况下(如 GeoQA 上的“直接合成”)表现更优。这揭示了一条极具潜力的路径:未来 MLLM 或许可以不依赖任何外部数据,通过不断地自我提问、自我解答、自我评估,进入一个可规模化的、持续的自我完善循环。

具备良好的通用性和兼容性

为了证明 MM-UPT 并非只对特定模型有效,研究团队在包括 Qwen2.5-VL-3B, MM-Eureka-7B, ThinkLite-VL-7B 在内的多个不同规模和架构的模型上进行了消融实验。下面表格中的结果显示,MM-UPT 对所有被测试的模型都带来了稳定的性能增益。

一个更有趣的发现是,MM-UPT 对于已经接受过监督强化学习(如 MM-Eureka-7B)的模型依然有效,可以在其基础上实现“二次提升”。这表明 MM-UPT 可以作为一个轻量、即插即用的优化模块,帮助顶尖模型在新的无标签数据上继续挖掘潜力。

深入剖析 MM-UPT:优势、边界与权衡

一项优秀的技术不仅要证明其有效性,更要清晰地剖析其工作原理、适用边界及潜在的权衡。研究团队对 MM-UPT 进行了深入的分析,揭示了其成功背后的深层原因和实际应用中需要考量的因素。

为什么 MM-UPT 行之有效?

MM-UPT 的成功并非偶然,其背后是经典的集成学习理论在支撑。研究团队通过一个简单的概率模型解释了其原理:假设模型对某个二元问题的单次回答正确率为 ,且 (即正确率高于随机猜测)。在这种情况下,若独立采样 次,那么正确回答的次数 便服从二项分布()。当正确次数超过总采样次数的一半时(),多数投票的结果就是正确的。这一事件(我们称之为 )发生的概率可以通过以下公式计算:

该公式可以继续推导出,只要单次正确率 大于0.5,那么经过多数投票后的最终正确率 就会被放大,且高于 。例如,如果模型单次回答的正确率 ,在采样10次后,通过该公式计算出的多数投票正确率将上升至约 85% 。这意味着,只要模型具备了一定的初始能力,多数投票机制就能非常可靠地筛选出正确的伪标签,为强化学习提供高质量的奖励信号,从而进入正向循环。

MM-UPT 的失效边界

反之,上述原理也揭示了 MM-UPT 的适用边界:当模型对某个领域的知识储备严重不足(即在上述建模中单次回答正确率 )时,该框架可能会失效。为了验证这一点,团队在一个专门收集了困难样本的数据集(ThinkLite-11K)上进行了实验。结果如预期一样,模型性能出现了显著下滑。这是因为在这种情况下,错误的回答反而成为了“大多数”,导致多数投票机制不断地将错误答案放大为伪标签,从而对模型产生了负向的优化作用。这说明 MM-UPT 更适合作为一种“优等生”的强化方案,而非“差等生”的启蒙工具。

MM-UPT 中的两大权衡

MM-UPT 在提升模型能力的同时,也带来了需要仔细考量的权衡:

  • • 准确率 vs. 多样性:实验发现,MM-UPT 在显著提升单次回答准确率(pass@1)的同时,会降低模型回答的多样性(pass@10 指标下降)。这是因为多数投票的奖励机制会激励模型收敛到共识度最高的“最优路径”上,从而牺牲了对其他可能正确的小众思路的探索。这是一种典型的“利用”与“探索”(Exploitation vs. Exploration)的权衡。
  • • 训练成本 vs. 推理成本:有人可能会问,为什么不直接在推理时使用多数投票等测试时扩展的方法来提升性能呢?虽然推理时使用这种策略同样有效,但这将导致每次查询都需要进行多次采样,极大地增加了计算开销和响应时间,在规模化应用中是不现实的。MM-UPT 的优势在于,它将这一成本“前置”到了一次性的训练阶段。经过优化的模型,在部署后能够以更高效的单次推理产出更强的性能,这对于追求低延迟和高吞吐量的实际应用场景至关重要。

Takeaways

  • • 无需人工标注:MM-UPT 摆脱了对外部标注数据的依赖,仅凭无标签数据或模型的自合成数据即可自我提升推理能力。
  • • 核心机制简单高效:多数投票 + GRPO 在线强化学习,构建了稳定的自奖励学习循环。
  • • 效果显著且通用:在多个多模态推理基准上表现优异,逼近甚至接近有监督训练方法,并适用于不同模型。
    • 适用边界清晰:需要基础模型具备一定初始能力,否则多数投票会放大错误。
    • 应用价值突出:将测试时扩展算法前置于训练阶段,部署阶段推理更高效。

结论与展望

MM-UPT 框架的提出,为多模态大模型的持续进化提供了一个摆脱“数据标注”的全新范式。通过简单而强大的“多数投票”自奖励机制和在线强化学习,模型得以在完全无监督的环境下实现推理能力的自我提升。实验不仅验证了该框架在标准无标签数据集上的有效性,更揭示了利用模型自身合成数据进行可规模化自我完善的巨大潜力。当然,研究团队也指出,该方法的成功依赖于基础模型已具备一定的初始能力,否则多数投票可能会放大错误。未来,将 MM-UPT 与更精细化的自奖励算法(如 LLM-as-a-Judge)和数据合成方法(如 Text2SVG)相结合,将是值得探索的方向。我们相信,这项工作将启发更多关于大模型自主学习和持续进化的研究。
读者福利:倘若大家对大模型感兴趣,那么这套大模型学习资料一定对你有用。

针对0基础小白:

如果你是零基础小白,快速入门大模型是可行的。
大模型学习流程较短,学习内容全面,需要理论与实践结合
学习计划和方向能根据资料进行归纳总结

包括:大模型学习线路汇总、学习阶段,大模型实战案例,大模型学习视频,人工智能、机器学习、大模型书籍PDF。带你从零基础系统性的学好大模型!

😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

请添加图片描述

👉AI大模型学习路线汇总👈

大模型学习路线图,整体分为7个大的阶段:(全套教程文末领取哈)

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

👉大模型实战案例👈

光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

在这里插入图片描述

👉大模型视频和PDF合集👈

这里我们能提供零基础学习书籍和视频。作为最快捷也是最有效的方式之一,跟着老师的思路,由浅入深,从理论到实操,其实大模型并不难

在这里插入图片描述

👉学会后的收获:👈

• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

👉获取方式:

😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐