多模态模型具备“物理推理能力”了吗?新基准揭示:表现最好的GPT-o4 mini也远不及人类!
表现最好的GPT-o4 mini,物理推理能力也远不及人类!就在最近,来自香港大学、密歇根大学等机构的研究人员补齐了——。,即模型在面对真实或拟真的物理情境时,能否综合利用视觉信息、物理常识、数学建模进行判断和预测,被认为是通向具身智能的关键能力。但这一能力在现有评估体系中仍是空白。对此,研究人员构建了(Physical Reasoning Benchmark),首个专门面向多模态大模型物理推理能
表现最好的GPT-o4 mini,物理推理能力也远不及人类!
就在最近,来自香港大学、密歇根大学等机构的研究人员补齐了现有评估体系中的一处关键空白——
评估多模态模型是否具备“物理推理能力”。

物理推理,即模型在面对真实或拟真的物理情境时,能否综合利用视觉信息、物理常识、数学建模进行判断和预测,被认为是通向具身智能的关键能力。
但这一能力在现有评估体系中仍是空白。
对此,研究人员构建了PhyX(Physical Reasoning Benchmark),首个专门面向多模态大模型物理推理能力的大规模基准测试。
PhyX包含3000道题目,涵盖6大物理学科*(力学、电磁、热学、光学、波动、现代物理),25个细分子类与6类推理方式(如空间理解、物理建模、公式联立、预测性推理等)*,每道题目都结合教材级图像与真实物理设定,并由STEM专业研究生精心审核。

那么,各大主流模型在PhyX上的表现如何呢?
强如GPT-o4 mini也比不上人类
截止目前,多模态大语言模型*(MLLMs)*不断刷新各类图文推理与科学问答任务的记录。
诸如GPT-4o、Claude3.7、DeepSeek系列等最新模型,已经在数学奥赛(AIME、MATH-V)、通识科学(MMMU)、跨学科推理(OlympiadBench)等标准化测试中展现出堪比人类的表现。
然而,这些测试所衡量的往往是抽象计算能力、公式记忆与文本逻辑,尚未系统性地检验模型能否真正理解现实世界中的物理规律与视觉场景。
利用PhyX,研究人员在包括GPT-4o、Claude3.7、DeepSeek-R等在内的16个主流模型上进行了系统评估,发现:
- 即便是表现最好的模型GPT-o4 mini,其准确率也仅为45.8%,而人类物理本科/研究生在同一任务上的准确率达 75.6%;
- 在现代物理、电磁学、热力学等高阶推理任务上,模型的表现尤其低下,准确率不足30%;
- 错误分析显示,超过三分之一错误来自图像感知失败,其次是知识缺失与逻辑推理能力不足。
说完结果,我们顺便展开一下PhyX的构建过程。
PhyX目标在于建立一个真实、多样、具挑战性的物理图文推理测试环,系统评估多模态模型在处理物理场景中是否具备与人类相当的“物理常识、感知理解与符号建模”能力。
与现有多模态基准(如VQA、ScienceQA)侧重日常知识与科普推理不同,PhyX聚焦高层次的物理专业问题解决能力,强调图文信息的深度结合、推理链条的完整性与真实感知与建模的还原度。
学科维度与题目覆盖
它总计包含3000道图文物理题目,内容涵盖大学物理主干课程的六大核心学科:

每道题均为图文结合问题,包含插图、图表或场景图,并匹配相应文字说明与问题设定。
下图给出了每个学科的一个PhyX样本。

此外,还详细给出了所覆盖的科目及相关统计数据,六大物理学科分布均匀。
左边对PhyX的关键数据进行了描述性统计。如表1所示,PhyX中共有6000个问题,开放性问题与多选题各3000个。

PhyX的优越性
为细粒度分析模型能力,PhyX对每道题标注了0~2种核心推理类型,共六类。
该标签体系有助于研究者系统性研究模型在哪些类型推理上表现良好或薄弱,并支持跨模型、跨模态、跨学科横向比较。

PhyX为每道题提供三种输入模态与两类题型,以支持多种模型与能力维度的测试:

下图展示了PhyX如何去除重复内容:

每道题支持两种格式切换,适应不同类型模型(闭式 vs 开放式、判别 vs 生成):
- 多项选择题(MC):方便统一评分与大规模测试
- 主观问答题(OE):用于评估链式推理、生成能力与公式表达
下图与下表给出了PhyX与已有基准的差异,可见PhyX全面领先于现有基准。

下图为基于GPT-4o的推理轨迹真实示例及所需时间对比解决物理和数学问题的能力。

数据构建与审核流程
为确保题目质量与广度,PhyX采用如下多轮数据构建流程:
1、初始设计与题源采集题目来源包括:物理教材、考试题库、公开课程材料、大学教案与题目设计所有题目要求结合图像;
2、专业标注者构建与重写组建跨高校研究生团队(物理、AI双背景),每位标注者负责“构建 + 重写 + 图文匹配”任务图像统一制作规范,确保风格多样但信息清晰;
3、质量控制与审核每题需经过双人交叉验证:科学性 + 语言可读性标注项包括:学科标签、推理类型、题型双版本、答案及解析自动检测图文重复性 + 模板重合度 + 图像内容覆盖度。
模型评估与测试结果
为了全面评估当前多模态大模型(MLLM)与语言模型(LLM)在真实物理场景下的理解与推理能力,研究人员在PhyX-testmini子集(共1,000 道题)上对16种主流模型进行了系统性测试。
该子集覆盖所有学科与推理类型,采用统一输入模态和答题格式,确保评估公平与可复现。
下图为三种领先的MLLM、两种领先的LLM在PhyX基准中的正确率。

所有模型均在zero-shot(零样本)设定下运行,即不提供任何示例或任务微调,以真实反映其物理常识迁移能力与场景泛化能力。
即使是表现最好的模型(如GPT-o4 mini或DeepSeek-R1),也远未达到人类水平,尤其在“具图像感知 + 多步建模”的综合任务中显著失分。
下表给出了在PhyX基准上不同LLM和MLLM的结果比较。PHYX的testmini子集的准确度分数。每个模型中得分最高的部分和总体最高分分别以蓝色和红色突出显示。

研究人员进一步对模型在六大学科维度的得分情况做了细分分析。
下表显示了,不同物理学领域的模型平均得分(开放式文本)冗余问题。各部分模型最高分及总最高分分别以蓝色和红色突出显示:
- GPT-4o在“现代物理”类题目的表现仅为21.2%,远低于人类平均;
- 所有模型在“电磁学、热力学”题型中的准确率均低于50%;
- “力学、波动声学”中模型表现略优,但差距仍在20分以上。

模型错误分析与能力瓶颈
尽管多模态大模型在通用图文问答与常识性推理上表现强劲,但在PhyX上,它们的错误却暴露出更深层次的结构性缺陷。
研究人员对GPT-4o在testmini子集上的100+个错误样本进行了逐题分析与专家标注,总结出如下主要问题类别及其占比见下图:


在错误分析中,研究人员观察到MLLM(特别是GPT-4o)倾向于:
-
过度依赖文字提示:一旦图像中的信息未在题干中明示,模型倾向忽略;
-
图像信息降权处理:哪怕图像中有明确变量、结构或数值,模型也更偏好使用题干描述;
-
多模态融合机制缺乏推理引导:未能主动调取图像细节来修正文字中的不确定性或模糊性。
-
过度依赖文字提示:一旦图像中的信息未在题干中明示,模型倾向忽略;
-
图像信息降权处理:哪怕图像中有明确变量、结构或数值,模型也更偏好使用题干描述;
-
多模态融合机制缺乏推理引导:未能主动调取图像细节来修正文字中的不确定性或模糊性。
这表明,现有MLLM“多模态理解”仍更接近于图文匹配或粗粒特征拼接,缺乏具备“物理结构建模意图”的跨模态融合能力。
大模型岗位需求
大模型时代,企业对人才的需求变了,AIGC相关岗位人才难求,薪资持续走高,AI运营薪资平均值约18457元,AI工程师薪资平均值约37336元,大模型算法薪资平均值约39607元。
掌握大模型技术你还能拥有更多可能性:
• 成为一名全栈大模型工程师,包括Prompt,LangChain,LoRA等技术开发、运营、产品等方向全栈工程;
• 能够拥有模型二次训练和微调能力,带领大家完成智能对话、文生图等热门应用;
• 薪资上浮10%-20%,覆盖更多高薪岗位,这是一个高需求、高待遇的热门方向和领域;
• 更优质的项目可以为未来创新创业提供基石。
可能大家都想学习AI大模型技术,也想通过这项技能真正达到升职加薪,就业或是副业的目的,但是不知道该如何开始学习,因为网上的资料太多太杂乱了,如果不能系统的学习就相当于是白学。为了让大家少走弯路,少碰壁,这里我直接把全套AI技术和大模型入门资料、操作变现玩法都打包整理好,希望能够真正帮助到大家。
读者福利:如果大家对大模型感兴趣,这套大模型学习资料一定对你有用
零基础入门AI大模型
今天贴心为大家准备好了一系列AI大模型资源,包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
有需要的小伙伴,可以点击下方链接免费领取【保证100%免费】
1.学习路线图




如果大家想领取完整的学习路线及大模型学习资料包,可以扫下方二维码获取
👉2.大模型配套视频👈
很多朋友都不喜欢晦涩的文字,我也为大家准备了视频教程,每个章节都是当前板块的精华浓缩。(篇幅有限,仅展示部分)

大模型教程
👉3.大模型经典学习电子书👈
随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。(篇幅有限,仅展示部分,公众号内领取)

电子书
👉4.大模型面试题&答案👈
截至目前大模型已经超过200个,在大模型纵横的时代,不仅大模型技术越来越卷,就连大模型相关的岗位和面试也开始越来越卷了。为了让大家更容易上车大模型算法赛道,我总结了大模型常考的面试题。(篇幅有限,仅展示部分,公众号内领取)

大模型面试
**因篇幅有限,仅展示部分资料,**有需要的小伙伴,可以点击下方链接免费领取【保证100%免费】
**或扫描下方二维码领取 **

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐
所有评论(0)