在这里插入图片描述

📖标题:Enhancing the Geometric Problem-Solving Ability of Multimodal LLMs via Symbolic-Neural Integration
🌐来源:arXiv, 2504.12773

🌟摘要

🔸多模态大语言模型(MLLM)的最新进展在一般领域取得了显著进展,并在多模态数学推理方面展现出前景。然而,由于缺乏准确的逐步解决方案数据和推理过程中的严重幻觉,将MLLM应用于几何问题求解(GPS)仍然具有挑战性。
🔸在本文中,我们提出了GeoGen,这是一种可以自动为几何图生成逐步推理路径的管道。通过利用精确的符号推理,GeoGen生成了大规模、高质量的问答对。为了进一步提高MLLM的逻辑推理能力,我们使用GeoGen生成的合成数据训练GeoLogic,这是一个大型语言模型(LLM)。GeoLogic作为自然语言和符号系统之间的桥梁,使符号工具能够帮助验证MLLM输出,使推理过程更加严谨,并减轻幻觉。
🔸实验结果表明,我们的方法持续提高了MLLM的性能,在几何推理任务的基准测试中取得了显著成果。这种改进源于我们整合了LLM和符号系统的优势,这为GPS任务提供了更可靠和可解释的方法。代码可在以下网址获得https://github.com/ycpNotFound/GeoGen.

🛎️文章简介

🔸研究问题:现有几何问题求解模型在推理能力和训练数据稀缺性方面面临瓶颈。
🔸主要贡献:论文提出了一种名为GeoGen的管道,可以自动生成几何多步推理数据,并构建了两个大型数据集GeoExpand和GeoSynth,以增强几何问题求解模型的训练效果。

📝重点思路

🔸开发GeoGen管道,通过随机抽样几何条件和符号推理生成几何图形。
🔸设计目标查找模块,通过广度优先搜索识别几何图像中的潜在目标,并构建有向图以表示逻辑依赖关系。
🔸利用Plotter模块合成几何图形,并生成带有多步推理的问答对。
🔸引入GeoLogic模型,实现符号系统与大型语言模型之间的交互,增强推理过程的可靠性。
🔸采用标准自回归语言建模目标进行模型训练,结合符号验证和树搜索算法优化推理过程。

🔎分析总结

🔸实验表明,GeoGen管道显著提高了几何问题求解模型的推理准确性,减少了模型的幻觉现象。
🔸通过数据扩增,GeoExpand和GeoSynth数据集有效提升了模型在多种几何基准测试中的表现。
🔸GeoLogic模型的引入使得推理步骤更加准确,并与视觉信息保持一致,增强了推理过程的可解释性。
🔸结果显示,与现有的几何求解方法相比,GeoGen的性能在多个基准上均有显著提升。

💡个人观点

论文的创新点在于通过符号推理与LLM的结合,不仅解决了数据稀缺问题,还增强了几何问题求解的精确性和可靠性。

🧩附录

在这里插入图片描述

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐