在这里插入图片描述

📖标题:Multimodal Mathematical Reasoning with Diverse Solving Perspective
🌐来源:arXiv, 2507.02804

🌟摘要

大规模强化学习(RL)的最新进展显著提高了大型语言模型(LLM)的推理能力,特别是在数学领域。然而,目前用于数学推理的多模态LLM(MLLM)通常依赖于一对一的图像-文本对和单解监督,忽视了有效推理视角和内部反思的多样性。在这项工作中,我们介绍了MathV DP,这是一个新的数据集,可以捕获每个图像-问题对的多个不同的解决方案轨迹,从而促进更丰富的推理监督。我们进一步提出了Qwen VL DP,这是一个建立在Qwen VL-DP基础上的模型,通过监督学习进行微调,并通过组相对策略优化(GRPO)进行增强,GRPO是一种基于规则的强化学习方法,集成了正确性判别和多样性感知奖励函数。我们的方法强调从不同的推理角度学习,并区分正确但不同的解决方案。在MathVista的minitest和Math-V基准上进行的广泛实验表明,Qwen VL DP在准确性和生成多样性方面明显优于先前的基本MLLM,突显了在多模态数学推理中结合不同视角和反思性推理的重要性。

🛎️文章简介

🔸研究问题:如何通过引入多样化的解决视角来提升多模态大语言模型(MLLM)在数学推理任务中的能力?
🔸主要贡献:论文提出了一种新的数据集MathV-DP,并通过监督微调与规则基础的强化学习相结合的方法,显著提升了模型的推理准确性和生成多样性。

📝重点思路

🔸采用数据合成技术,构建包含多种正确解与错误解的数学问题解决方案。
🔸设计了两阶段的训练流程,包括监督微调(SFT)以稳定模型的推理能力,以及基于规则的强化学习(RL)阶段以增强推理能力的泛化和多样性。
🔸在强化学习阶段,利用群体相对政策优化(GRPO)来提升不同解的辨识度和正确性偏好。
🔸利用生成的MathV-DP数据集,整合多模态推理能力,评估模型在MathVista基准上的表现。

🔎分析总结

🔸实验结果显示,Qwen-VL-DP模型在MathVista基准的准确率达到了70.4%,相比于基模型有显著提高,说明多样化的解视角有效提高了推理能力。
🔸在生成多样性方面,通过有效的语义多样性度量,模型生成的解答在不同测试条件下表现出更强的多样性,证明了从多个有效解视角学习的潜力。
🔸论文的结果强调了超越一对一图文监督,向多解决视角学习的转变在多模态数学推理中的重要性。

💡个人观点

论文通过综合多种解决思路与反思,构建了一个丰富的数据集,并提出了一种有效的训练方案,以提升多模态语言模型在复杂数学推理中的表现。

🧩附录

在这里插入图片描述

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐