11月26日,国际权威空间推理评测基准SpatialBench发布最新评估结果,来自中国的阿里千问视觉大模型家族表现惊艳——Qwen3-VL与Qwen2.5-VL以显著优势包揽榜单前两名,将Gemini 3、GPT-5.1、Claude Sonnet4.5等国际一线模型甩在身后。这一突破性成绩标志着中国在多模态AI领域的核心竞争力已跻身全球第一梯队,为智能体技术的产业化应用开辟了新路径。

【免费下载链接】Qwen3-VL-235B-A22B-Instruct-FP8 【免费下载链接】Qwen3-VL-235B-A22B-Instruct-FP8 项目地址: https://ai.gitcode.com/hf_mirrors/Qwen/Qwen3-VL-235B-A22B-Instruct-FP8

作为近年来迅速崛起的第三方测评体系,SpatialBench不同于传统AI测试仅关注知识储备,其核心价值在于构建了二维与三维空间中的"认知考场"。该基准通过路径规划、结构拆解、空间转换等复杂任务,全面衡量模型对抽象概念的感知理解与动态操控能力,这种"动手思考"的能力恰恰是未来机器人、自动驾驶等智能体系统落地的关键技术壁垒。业内专家普遍认为,SpatialBench的评测结果正在成为衡量AI系统"环境交互智商"的新标杆。

最新榜单数据显示,阿里千问的Qwen3-VL-235B模型以13.5分的成绩刷新历史纪录,其前代产品Qwen2.5-VL-72B亦获得12.9分,二者均大幅领先于Gemini 3.0 Pro Preview(9.6分)、GPT-5.1(7.5分)等国际竞品。值得注意的是,当前AI模型的整体得分与人类80分左右的基准线仍存在显著差距,这意味着在电路设计、建筑CAD、分子结构分析等专业空间推理领域,AI尚无法完全替代人类专家的复杂决策。

SpatialBench AI空间推理基准测试柱状图,展示Qwen3-VL-235B、Qwen2.5-VL-72B等模型得分对比,阿里千问模型在此测试中领先于Gemini、GPT等国际顶尖模型。 如上图所示,柱状图清晰呈现了各模型在空间推理任务中的得分分布,阿里千问两款模型形成明显的第一梯队。这种技术代差充分体现了中国AI企业在多模态融合架构上的创新突破,为开发者选择空间智能解决方案提供了权威参考依据。

技术突破的背后是阿里千问团队持续的架构创新。2024年开源的Qwen2.5-VL已展现出强大的视觉理解能力,而2025年推出的Qwen3-VL更是实现了跨越式升级:在32项核心能力测评中全面超越Gemini2.5-Pro和GPT-5,不仅能调用图像分割、实时搜索等工具链完成复杂"图文推理",更突破性地实现了"视觉编程"——仅凭手绘草图或游戏视频即可自动生成功能代码。特别强化的3D立体视觉系统,使机器人能精准判断物体方位、视角变化和遮挡关系,这种能力已在实验室环境中实现对5米外悬浮苹果的毫米级抓取精度。

阿里千问采取的"全尺寸开源战略"正在重塑行业生态。Qwen3-VL系列提供从20亿参数到2350亿参数的完整产品线,包括2B/4B/8B/32B等密集型模型,以及30B-A3B、235B-A22B等高效稀疏激活模型(MoE),每种规格均配备指令微调版与推理优化版。这种"按需选择"的产品矩阵,使从手机APP开发者到工业机器人厂商都能找到适配方案,目前已成为GitHub上星标增长最快的视觉大模型项目。普通用户则可通过千问APP免费体验这些黑科技,在AR导航、智能设计等场景中感受空间智能的魅力。

此次中国模型在空间推理领域的领先,本质上反映了多模态大模型研发范式的进化。不同于单纯堆砌参数的"暴力美学",Qwen3-VL通过"视觉注意力机制重构"和"空间知识图谱"等原创技术,实现了效率与能力的双重突破。随着开源生态的持续完善,我们有理由期待,这种"中国智慧"将加速智能体从实验室走向产业应用,在智能制造、智慧医疗、城市治理等领域催生更多颠覆性创新。

从技术追赶者到规则制定者,中国AI企业正在经历角色蜕变。SpatialBench榜单的领先成绩,不仅是单点技术的突破,更标志着中国在AI核心算法、开源生态、应用落地等全链条能力的系统性提升。未来,随着空间智能技术与产业应用的深度融合,我们或将迎来一个"机器人会思考,AI能动手"的智能新纪元。

【免费下载链接】Qwen3-VL-235B-A22B-Instruct-FP8 【免费下载链接】Qwen3-VL-235B-A22B-Instruct-FP8 项目地址: https://ai.gitcode.com/hf_mirrors/Qwen/Qwen3-VL-235B-A22B-Instruct-FP8

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐