电子科大：多模态数学推理训练

如何通过引入多样化的解决视角来提升多模态大语言模型（MLLM）在数学推理任务中的能力？论文提出了一种新的数据集MathV-DP，并通过监督微调与规则基础的强化学习相结合的方法，显著提升了模型的推理准确性和生成多样性。

大模型任我行

644人浏览 · 2025-07-09 10:00:00

大模型任我行 · 2025-07-09 10:00:00 发布

在这里插入图片描述

📖标题：Multimodal Mathematical Reasoning with Diverse Solving Perspective
🌐来源：arXiv, 2507.02804

🌟摘要

大规模强化学习（RL）的最新进展显著提高了大型语言模型（LLM）的推理能力，特别是在数学领域。然而，目前用于数学推理的多模态LLM（MLLM）通常依赖于一对一的图像-文本对和单解监督，忽视了有效推理视角和内部反思的多样性。在这项工作中，我们介绍了MathV DP，这是一个新的数据集，可以捕获每个图像-问题对的多个不同的解决方案轨迹，从而促进更丰富的推理监督。我们进一步提出了Qwen VL DP，这是一个建立在Qwen VL-DP基础上的模型，通过监督学习进行微调，并通过组相对策略优化（GRPO）进行增强，GRPO是一种基于规则的强化学习方法，集成了正确性判别和多样性感知奖励函数。我们的方法强调从不同的推理角度学习，并区分正确但不同的解决方案。在MathVista的minitest和Math-V基准上进行的广泛实验表明，Qwen VL DP在准确性和生成多样性方面明显优于先前的基本MLLM，突显了在多模态数学推理中结合不同视角和反思性推理的重要性。

🛎️文章简介

🔸研究问题：如何通过引入多样化的解决视角来提升多模态大语言模型（MLLM）在数学推理任务中的能力？
🔸主要贡献：论文提出了一种新的数据集MathV-DP，并通过监督微调与规则基础的强化学习相结合的方法，显著提升了模型的推理准确性和生成多样性。

📝重点思路

🔸采用数据合成技术，构建包含多种正确解与错误解的数学问题解决方案。
🔸设计了两阶段的训练流程，包括监督微调（SFT）以稳定模型的推理能力，以及基于规则的强化学习（RL）阶段以增强推理能力的泛化和多样性。
🔸在强化学习阶段，利用群体相对政策优化（GRPO）来提升不同解的辨识度和正确性偏好。
🔸利用生成的MathV-DP数据集，整合多模态推理能力，评估模型在MathVista基准上的表现。

🔎分析总结

🔸实验结果显示，Qwen-VL-DP模型在MathVista基准的准确率达到了70.4%，相比于基模型有显著提高，说明多样化的解视角有效提高了推理能力。
🔸在生成多样性方面，通过有效的语义多样性度量，模型生成的解答在不同测试条件下表现出更强的多样性，证明了从多个有效解视角学习的潜力。
🔸论文的结果强调了超越一对一图文监督，向多解决视角学习的转变在多模态数学推理中的重要性。

💡个人观点

论文通过综合多种解决思路与反思，构建了一个丰富的数据集，并提出了一种有效的训练方案，以提升多模态语言模型在复杂数学推理中的表现。

🧩附录

在这里插入图片描述

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

火山引擎 ADG 社区

OpenClaw 小白安装指南（Windows版）

（类似一个能自动执行任务的AI机器人），不是游戏。API Key只保存在你本地电脑的加密文件里，不会上传到任何地方。访问：https://github.com/miaoxworld/openclaw-manager/releases。: 一键安装脚本会自动安装Node.js 22+，如果失败，手动下载安装：https://nodejs.org/：在PowerShell中，鼠标右键就是粘贴，不需要按

火山引擎 ADG 社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla