一、Qwen3核心优势

结论,针对这些场景:上下文理解、任务编排、工具调用、数据要素抽取等环节,Qwen3-32B已接近DeepSeek-R1。

二、关键测试环节

1、上下文改写

Qwen3-32B对绝对时间语境理解优于Qwen2.5-72B。

其余改写方面,三个模型差异不大,效果都存在缺陷。

2、任务编排与工具调用

Qwen3-32B任务拆解能力优于Qwen2.5-72B,接近DeepSeek-R1。

3、数据查询场景

时间要素解析:Qwen3-32B与DeepSeek-R1并列最优。

实体抽取:Qwen3-32B在Dense模型表现更稳定。

4、图表生成

Qwen3-235B-A22B排版最优,32B略逊于DeepSeek-R1,优于Qwen2.5-72B。

三、关键对比

维度场景 Qwen3-32B Qwen3-325B-A22B DeepSeek-R1 Qwen2.5-72B
上下文改写(理解)能力 ※ 最优(绝对时间理解) 优秀 ※ 最优 部分错误(依赖历史语境)
任务编排与工具调用 接近R1 ※ 优秀 ※ 优秀 部分失败
数据要素抽取 ※ 最优 ※ 最优 存在漏检 部分错误
图表生成能力 排版差 ※ 最优 ※ 最优 数据遗漏
总结反思能力 ※ 合理修复 ※ 合理修复 未修复成功 简单处理

四、性能对比

模型 token速率 (token/s)
Qwen3-32b (硬关闭思考) 80.05
Qwen3-32b (软关闭思考) 80.87
Qwen2.5-32b 74.72

Qwen3-32b (硬关闭思考)

五、性能对比图

5.1 qwen3-32b 强制关闭思考,平均响应时间

在这里插入图片描述

5.2 qwen3-32b 软关闭思考,平均响应时间

在这里插入图片描述

5.3 qwen2.5-32b 软关闭思考,平均响应时间

在这里插入图片描述

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐