Qwen3多方位评测
结论,针对这些场景:上下文理解、任务编排、工具调用、数据要素抽取等环节,Qwen3-32B已接近DeepSeek-R1。Qwen3-235B-A22B排版最优,32B略逊于DeepSeek-R1,优于Qwen2.5-72B。Qwen3-32B任务拆解能力优于Qwen2.5-72B,接近DeepSeek-R1。时间要素解析:Qwen3-32B与DeepSeek-R1并列最优。Qwen3-32B对绝对
·
一、Qwen3核心优势
结论,针对这些场景:上下文理解、任务编排、工具调用、数据要素抽取等环节,Qwen3-32B已接近DeepSeek-R1。
二、关键测试环节
1、上下文改写
Qwen3-32B对绝对时间语境理解优于Qwen2.5-72B。
其余改写方面,三个模型差异不大,效果都存在缺陷。
2、任务编排与工具调用
Qwen3-32B任务拆解能力优于Qwen2.5-72B,接近DeepSeek-R1。
3、数据查询场景
时间要素解析:Qwen3-32B与DeepSeek-R1并列最优。
实体抽取:Qwen3-32B在Dense模型表现更稳定。
4、图表生成
Qwen3-235B-A22B排版最优,32B略逊于DeepSeek-R1,优于Qwen2.5-72B。
三、关键对比
| 维度场景 | Qwen3-32B | Qwen3-325B-A22B | DeepSeek-R1 | Qwen2.5-72B |
|---|---|---|---|---|
| 上下文改写(理解)能力 | ※ 最优(绝对时间理解) | 优秀 | ※ 最优 | 部分错误(依赖历史语境) |
| 任务编排与工具调用 | 接近R1 | ※ 优秀 | ※ 优秀 | 部分失败 |
| 数据要素抽取 | ※ 最优 | ※ 最优 | 存在漏检 | 部分错误 |
| 图表生成能力 | 排版差 | ※ 最优 | ※ 最优 | 数据遗漏 |
| 总结反思能力 | ※ 合理修复 | ※ 合理修复 | 未修复成功 | 简单处理 |
四、性能对比
| 模型 | token速率 (token/s) |
|---|---|
| Qwen3-32b (硬关闭思考) | 80.05 |
| Qwen3-32b (软关闭思考) | 80.87 |
| Qwen2.5-32b | 74.72 |
Qwen3-32b (硬关闭思考)
五、性能对比图
5.1 qwen3-32b 强制关闭思考,平均响应时间

5.2 qwen3-32b 软关闭思考,平均响应时间

5.3 qwen2.5-32b 软关闭思考,平均响应时间

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐
所有评论(0)