Qwen3-VL 评测结果合并对比

木尧大兄弟

631人浏览 · 2025-11-30 22:12:32

木尧大兄弟 · 2025-11-30 22:12:32 发布

论文：Qwen3-VL Technical Report
地址：https://arxiv.org/pdf/2511.21631

本文将 Table 2/3/4（大中小三种尺寸模型）的评测结果合成一个，便于个人和社区对比不同尺寸的 Qwen3-VL 系列模型。

思考/非思考模型最佳得分，分别以粗体和下划线标注
标 * 的结果来自各自模型官方技术报告
标 + 的结果表示评测时用了 tool use

注：小模型系列没有测 We-Math，中小模型系列没有测 Multi-Modal Coding 任务，因此有几处是空白的。

在这里插入图片描述

记录几个结论（仅供个人参考）：

思考还是非思考？think 模型大部分评测集下优于非 think 模型，数学推理、复杂VQA优势显著，而且235B的thinking模式优势更大；非思考模型文档理解、工具感知方面更有优势；
30B选哪个？中等规模模型中，32b稠密模型优于30b-a3b moe模型；
大中号怎么选？235b moe 和 32b 模型对比。235B在复杂推理、视频理解、工具感知任务上优势明显；文档理解、多模态智能体性能接近，32B在OCR任务上甚至略有优势。

智能体开发者社区

中国智能体开发者社区，聚焦智能体与大模型开发，提供前沿资讯、实用工具链、开源项目及行业案例。通过技术沙龙、开发者大赛等活动，促进经验交流与协作，助力开发者快速构建创新智能应用。

更多推荐

cover

Gateway 频繁掉线不用愁！OpenClaw Windows完整部署排错手册

智能体开发者社区

cover

覆盖国产 + 海外 + 开源模型，OpenClaw 2.7.9 Windows/Mac 双端部署详解

智能体开发者社区

cover

OpenClaw 在电商行业：智能导购助手实战

智能体开发者社区

所有评论(0)

查看更多评论

木尧大兄弟

已为社区贡献1条内容