Qwen3 技术报告
在本工作中,我们介绍了Qwen3,这是Qwen模型家族的最新版本。Qwen3包含一系列旨在提升性能、效率和多语言能力的大规模语言模型(LLMs)。Qwen3系列包括密集型架构和专家混合(MoE)架构的模型,参数规模从0.6亿到235亿不等。Qwen3的一项关键创新是将思考模式(用于复杂、多步骤推理)和非思考模式(用于快速、基于上下文的响应)整合到一个统一框架中。
Qwen 团队
https://huggingface.co/Qwen
https://modelscope.cn/organization/qwen
https://github.com/QwenLM/Qwen3
摘要
在本工作中,我们介绍了Qwen3,这是Qwen模型家族的最新版本。Qwen3包含一系列旨在提升性能、效率和多语言能力的大规模语言模型(LLMs)。Qwen3系列包括密集型架构和专家混合(MoE)架构的模型,参数规模从0.6亿到235亿不等。Qwen3的一项关键创新是将思考模式(用于复杂、多步骤推理)和非思考模式(用于快速、基于上下文的响应)整合到一个统一框架中。这消除了在不同模型之间切换的需求——例如,在聊天优化模型(如GPT-4o)和专用推理模型(如QwQ32B)之间切换——并根据用户查询或聊天模板实现动态模式切换。同时,Qwen3引入了思考预算机制,允许用户在推理过程中自适应地分配计算资源,从而根据任务复杂性平衡延迟和性能。此外,通过利用旗舰模型的知识,我们显著减少了构建小型模型所需的计算资源,同时确保其具有高度竞争力的性能。实证评估表明,Qwen3在多种基准测试中实现了最先进的结果,包括代码生成、数学推理、代理任务等领域,与更大的MoE模型和专有模型竞争。与前代产品Qwen2.5相比,Qwen3将多语言支持从29种扩展到119种语言和方言,通过改进跨语言理解和生成能力增强了全球可访问性。为了促进可重复性和社区驱动的研究与开发,所有Qwen3模型均在Apache 2.0许可下公开可用。
1 引言
追求人工通用智能(AGI)或人工超级智能(ASI)一直是人类的目标。最近在大规模基础模型方面的进展,例如GPT-4o(OpenAI,2024)、Claude 3.7(Anthropic,2025)、Gemini 2.5(DeepMind,2025)、DeepSeek-V3(Liu等人,2024a)、Llama-4(Meta-AI,2025)和Qwen2.5(Yang等人,2024b),在实现这一目标方面展示了显著的进步。这些模型在涵盖各种领域和任务的万亿级标记的大数据集上进行训练,有效地将人类知识和能力提炼到其参数中。此外,最近在推理模型方面的进展,通过强化学习优化,突显了基础模型在推理时间扩展上的潜力,并达到更高的智能水平,例如o3(OpenAI,2025)、DeepSeek-R1(Guo等人,2025)。尽管大多数最先进模型仍然是专有的,但开源社区的快速增长已大幅缩小了开源权重和闭源模型之间的性能差距。值得注意的是,越来越多的顶级模型(Meta-AI,2025;Liu等人,2024a;Guo等人,2025;Yang等人,2024b)现在以开源形式发布,推动了人工智能领域的更广泛研究和创新。
在本工作中,我们推出了Qwen3,这是我们基础模型家族Qwen的最新系列。Qwen3是一组开源权重的大规模语言模型(LLMs),在各种任务和领域中实现了最先进的性能。我们发布了密集型和专家混合(MoE)模型,参数数量范围从0.6亿到235亿,以满足不同下游应用的需求。特别是,旗舰模型Qwen3-235B-A22B是一个总共有235亿参数且每令牌激活22亿参数的MoE模型。这种设计确保了高性能和高效推理。
Qwen3引入了几项关键改进,以增强其功能和可用性。首先,它将两种不同的操作模式——思考模式和非思考模式——集成到一个单一模型中。这使得用户可以在无需在不同模型之间切换的情况下在这两种模式之间进行切换,例如从Qwen2.5切换到QwQ(Qwen团队,2024)。这种灵活性确保开发者和用户能够高效地调整模型行为以适应特定任务。此外,Qwen3引入了思考预算,为用户提供对模型在任务执行期间所应用的推理努力水平的精细控制。这种能力对于优化计算资源和性能至关重要,可以根据实际应用中的复杂性调整模型的思考行为。此外,Qwen3已在覆盖多达119种语言和方言的约36万亿标记的数据集上进行了预训练,有效提升了其多语言能力。这些改进共同确立了Qwen3作为尖端开源大规模语言模型家族的地位,能够有效应对各种领域和语言中的复杂任务。
Qwen3的预训练过程使用了一个大约包含36万亿标记的大型数据集,精心策划以确保语言和领域的多样性。为了高效扩展训练数据,我们采用多模态方法:Qwen2.5-VL(Bai等人,2025)经过微调以从大量PDF文档中提取文本。我们还使用领域特定模型生成合成数据:Qwen2.5-Math(Yang等人,2024c)用于数学内容,Qwen2.5-Coder(Hui等人,2024)用于代码相关数据。预训练过程遵循三阶段策略。在第一阶段,模型在约30万亿标记上进行训练以建立强大的一般知识基础。在第二阶段,进一步在知识密集型数据上进行训练以增强科学、技术、工程和数学(STEM)及编码方面的推理能力。最后,在第三阶段,模型在长上下文数据上进行训练以将其最大上下文长度从4,096增加到32,768个标记。
为了更好地使基础模型与人类偏好和下游应用对齐,我们采用了多阶段后训练方法,赋予模型思考(推理)和非思考模式的能力。在前两个阶段,我们专注于通过长链推理(CoT)冷启动微调和集中于数学和编码任务的强化学习来发展强大的推理能力。在最后两个阶段,我们将带和不带推理路径的数据组合成一个统一的数据集进行进一步微调,使模型能够有效处理这两类输入,然后应用一般领域的强化学习以提高在广泛下游任务中的性能。对于较小的模型,我们使用强至弱蒸馏,结合离线和在线知识转移来自较大模型以增强其能力。来自高级教师模型的蒸馏在性能和训练效率上显著优于强化学习。
我们在涵盖多个任务和领域的全面基准测试中评估了模型的预训练和后训练版本。实验结果表明,我们的基础预训练模型达到了最先进的性能。无论是在思考还是非思考模式下的后训练模型,都与领先的专有模型和大型专家混合(MoE)模型如o1、o3-mini和DeepSeek-V3竞争。值得注意的是,我们的模型在编码、数学和代理相关任务中表现出色。例如,旗舰模型Qwen3-235B-A22B在AIME’24上得分为85.7,在AIME’25(AIME,2025)上得分为81.5,在LiveCodeBench v5上得分为70.7,在CodeForces上得分为2,056,在BFCL v3上得分为70.8(Yan等人,2024)。此外,Qwen3系列中的其他模型相对于其规模也显示出强劲的性能。此外,我们观察到增加思考标记的思考预算可以持续改善模型在各种任务中的性能。
在接下来的部分中,我们将描述模型架构的设计,提供其训练过程的详细信息,展示预训练和后训练模型的实验结果,并最终通过总结关键发现和概述未来研究的潜在方向来结束这份技术报告。
2 架构
Qwen3系列包括6个密集模型,即Qwen3-0.6B、Qwen3-1.7B、Qwen3-4B、Qwen3-8B、Qwen3-14B和Qwen3-32B,以及2个MoE模型,Qwen3-30B-A3B和Qwen3-235B-A22B。旗舰模型Qwen3-235B-A22B共有235B参数,其中激活参数为22B。下面,我们将详细说明Qwen3模型的架构。
Qwen3密集模型的架构类似于Qwen2.5(Yang等人,2024b),包括使用分组查询注意力(GQA,Ainslie等人,2023)、SwiGLU(Dauphin等人,2017)、旋转位置嵌入(RoPE,Su等人,2024)和带有前置归一化的RMSNorm(Jiang等人,2023)。此外,我们去除了Qwen2中使用的QKV偏差(Yang等人,2024a),并在注意力机制中引入QK-Norm(Dehghani等人,2023),以确保Qwen3的稳定训练。关于模型架构的关键信息见表1。
Qwen3 MoE模型与Qwen3密集模型共享相同的底层架构。关于模型架构的关键信息见表2。我们遵循Qwen2.5-MoE(Yang等人,2024b)并实施细粒度专家分割(Dai等人,2024)。Qwen3 MoE模型共有128个专家,每个令牌激活8个专家。与Qwen2.5-MoE不同,Qwen3-MoE设计排除了共享专家。此外,我们采用了全局批量负载均衡损失(Qiu等人,2025)以鼓励专家专业化。这些架构和训练创新已在下游任务中带来了显著的模型性能提升。
Qwen3模型使用Qwen的分词器(Bai等人,2023),该分词器实现了字节级别的字节对编码(BBPE,Brown等人,2020;Wang等人,2020;Sennrich等人,2016),词汇表大小为151,669。
表1:Qwen3密集模型的模型架构。
| 模型 | 层数 | 头数 (Q / KV) | 绑定嵌入 | 上下文长度 |
|---|---|---|---|---|
| Qwen3-0.6B | 28 | 16/816 / 816/8 | 是 | 32 K |
| Qwen3-1.7B | 28 | 16/816 / 816/8 | 是 | 32 K |
| Qwen3-4B | 36 | 32/832 / 832/8 | 是 | 128 K |
| Qwen3-8B | 36 | 32/832 / 832/8 | 否 | 128 K |
| Qwen3-14B | 40 | 40/840 / 840/8 | 否 | 128 K |
| Qwen3-32B | 64 | 64/864 / 864/8 | 否 | 128 K |
表2:Qwen3 MoE模型的模型架构。
| 模型 | 层数 | 头数 (Q / KV) | 专家数(总数/激活数) | 上下文长度 |
|---|---|---|---|---|
| Qwen3-30B-A3B | 48 | 32/432 / 432/4 | 128/8128 / 8128/8 | 128 K |
| Qwen3-235B-A22B | 94 | 64/464 / 464/4 | 128/8128 / 8128/8 | 128 K |
3 预训练
在本节中,我们描述了预训练数据的构建、预训练方法的细节,并展示了对基础模型在标准基准上的评估结果。
3.1 预训练数据
与Qwen2.5(Yang等人,2024b)相比,我们显著扩展了训练数据的规模和多样性。具体来说,我们收集了两倍的预训练标记,涵盖了三倍的语言。所有Qwen3模型都在一个庞大而多样化的数据集上进行训练,该数据集包含119\mathbf{1 1 9}119种语言和方言,总共有36\mathbf{3 6}36万亿标记。此数据集包括高质量内容的各种领域,如编码、STEM(科学、技术、工程和数学)、推理任务、书籍、多语言文本和合成数据。
为了进一步扩展预训练数据语料库,我们首先使用Qwen2.5-VL模型(Bai等人,2025)对大量PDF样式的文档进行文本识别。然后使用Qwen2.5模型(Yang等人,2024b)对识别出的文本进行细化,这有助于提高其质量。通过这个两步过程,我们能够获得总计数千亿的高质量文本标记。此外,我们使用Qwen2.5(Yang等人,2024b)、Qwen2.5-Math(Yang等人,2024c)和Qwen2.5-Coder(Hui等人,2024)模型在不同格式下生成数千亿的文本标记,包括教科书、问答、指令和代码片段,涵盖数十个领域。最后,我们通过纳入额外的多语言数据并引入更多语言来进一步扩展预训练语料库。与Qwen2.5使用的预训练数据相比,支持的语言数量已从29显著增加到119,增强了模型的语言覆盖率和跨语言能力。
我们开发了一个多语言数据注释系统,旨在提高训练数据的质量和多样性。该系统应用于我们大规模的预训练数据集,对超过30万亿标记进行多维度注释,如教育价值、领域、主题和安全性。这些详细的注释支持更有效的数据过滤和组合。与之前的研究(Xie等人,2023;Fan等人,2023;Liu等人,2024b)不同,我们的方法通过对小代理模型进行广泛的消融实验来优化实例级别的数据混合。
3.2 预训练阶段
Qwen3模型通过三个阶段进行预训练:
(1) 一般阶段(S1):在第一个预训练阶段,所有Qwen3模型都在序列长度为4,096个标记的数据上进行训练,使用超过30万亿个标记。在此阶段,模型已经完全预训练了语言能力和一般世界知识,训练数据涵盖了119种语言和方言。
(2) 推理阶段(S2):为进一步提高推理能力,我们通过增加STEM、编码、推理和合成数据的比例来优化此阶段的预训练语料库。模型在序列长度为4,096个标记的数据上进一步预训练,使用约5T更高质的标记。在此阶段,我们还加速了学习率衰减。
(3) 长上下文阶段:在最后一个预训练阶段,我们收集高质量的长上下文语料库以扩展Qwen3模型的上下文长度。所有模型都在序列长度为32,768个标记的数据上进行预训练,使用数百亿个标记。长上下文语料库包括75%75 \%75%长度在16,384到32,768个标记之间的文本和25%25 \%25%长度在4,096到16,384个标记之间的文本。
遵循Qwen2.5(Yang等人,2024b),我们增加了RoPE的基础频率从10,000到1,000,000,使用ABF技术(Xiong等人,2023)。同时,我们引入了YARN(Peng等人,2023)和双块注意(DCA,An等人,2024),以在推理时将序列长度容量提高四倍。
类似Qwen2.5(Yang等人,2024b),我们开发了缩放定律,以预测上述三个预训练阶段的最佳超参数(例如学习率调度器和批处理大小)。通过广泛的实验,我们系统地研究了模型架构、训练数据、训练阶段和最佳训练超参数之间的关系。最后,我们为每个密集型或MoE模型设置了预测的最佳学习率和批处理大小策略。
3.3 预训练评估
我们对Qwen3系列的基础语言模型进行了全面评估。基础模型的评估主要关注其在普通知识、推理、数学、科学知识、编码和多语言能力方面的表现。预训练基础模型的评估数据集包括15个基准:
- 普通任务:MMLU(Hendrycks等人,2021a)(5-shot),MMLU-Pro(Wang等人,2024)(5-shot,CoT),MMLU-redux(Gema等人,2024)(5-shot),BBH(Suzgun等人,2023)(3-shot,CoT),SuperGPQA(Du等人,2025)(5-shot,CoT)。
-
- 数学与STEM任务:GPQA(Rein等人,2023)(5-shot,CoT),GSM8K(Cobbe等人,2021)(4-shot,CoT),MATH(Hendrycks等人,2021b)(4-shot,CoT)。
-
- 编码任务:EvalPlus(Liu等人,2023a)(0-shot)(HumanEval(Chen等人,2021)、MBPP(Austin等人,2021)、Humaneval+、MBPP+的平均值)(Liu等人,2023a),MultiPL-E(Cassano等人,2023)(0-shot)(Python、C++、JAVA、PHP、TypeScript、C#、Bash、JavaScript),MBPP-3shot(Austin等人,2021),CRUX-O of CRUXEval(1-shot)(Gu等人,2024)。
-
- 多语言任务:MGSM(Shi等人,2023)(8-shot,CoT),MMMLU(OpenAI,2024)(5-shot),INCLUDE(Romanou等人,2024)(5-shot)。
对于基础模型基线,我们将Qwen3系列基础模型与Qwen2.5基础模型(Yang等人,2024b)以及其他领先开源基础模型进行比较,包括DeepSeek-V3 Base(Liu等人,2024a)、Gemma-3(Team等人,2025)、Llama-3(Dubey等人,2024)和Llama-4(Meta-AI,2025)系列基础模型,依据参数规模。所有模型均使用相同的评估管道和广泛使用的评估设置进行评估,以确保公平比较。
- 多语言任务:MGSM(Shi等人,2023)(8-shot,CoT),MMMLU(OpenAI,2024)(5-shot),INCLUDE(Romanou等人,2024)(5-shot)。
基于整体评估结果的总结,我们突出了一些Qwen3基础模型的关键结论。
(1) 与先前开源的最先进密集和MoE基础模型(如DeepSeekV3 Base、Llama-4-Maverick Base和Qwen2.5-72B-Base)相比,Qwen3-235B-A22B-Base在大多数任务中以显著较少的总参数或激活参数胜过这些模型。
(2) 对于Qwen3 MoE基础模型,我们的实验结果表明:(a) 使用相同的预训练数据,Qwen3 MoE基础模型可以用仅1/5\mathbf{1 / 5}1/5的激活参数达到与Qwen3密集基础模型相似的性能。(b) 由于Qwen3 MoE架构的改进、训练标记的规模扩大和更先进的训练策略,Qwen3 MoE基础模型可以用不到一半的总参数和少于1/2的激活参数胜过Qwen2.5 MoE基础模型。© 即使只有1/10\mathbf{1 / 1 0}1/10的Qwen2.5密集基础模型的激活参数,Qwen3 MoE基础模型仍能达到相当的性能,这为我们提供了显著的推理和训练成本优势。
(3) Qwen3密集基础模型的整体性能与较高参数规模的Qwen2.5基础模型相当。例如,Qwen3-1.7B/4B/8B/14B/32B-Base分别在性能上与Qwen2.5-3B/7B/14B/32B/72B-Base相当。特别是在STEM、编码和推理基准测试中,Qwen3密集基础模型甚至在较高的参数规模下超越了Qwen2.5基础模型。
详细结果如下。
Qwen3-235B-A22B-Base 我们将Qwen3-235B-A22B-Base与我们之前的类似规模的MoE Qwen2.5-Plus-Base(Yang et al., 2024b)和其他领先的开源基础模型进行比较:Llama-4-Maverick(Meta-AI, 2025)、Qwen2.5-72B-Base(Yang et al., 2024b)、DeepSeek-V3 Base(Liu et al., 2024a)。从表3的结果来看,Qwen3-235B-A22B-Base模型在大多数评估基准上取得了最高性能分数。我们进一步单独比较Qwen3-235B-A22B-Base与其他基线以进行详细分析。
(1) 与最近开源的模型Llama-4-Maverick-Base相比,该模型的参数量约为其两倍,但Qwen3-235B-A22B-Base在大多数基准上仍然表现更好。
(2) 与之前的最先进开源模型DeepSeek-V3-Base相比,Qwen3-235B-A22B-Base在15个评估基准中的14个上胜过DeepSeek-V3-Base,总参数量仅为其约1/3\mathbf{1 / 3}1/3,激活参数量为2/3\mathbf{2 / 3}2/3,展示了我们模型的强大和成本效益。
(3) 与我们之前类似的规模的MoE Qwen2.5-Plus相比,Qwen3-235B-A22B-Base在更少的参数和激活参数下显著胜出,这显示了Qwen3在预训练数据、训练策略和模型架构上的显著优势。
(4) 与我们之前的旗舰开源密集模型Qwen2.5-72B-Base相比,Qwen3-235B-A22B-Base在所有基准上都超过了后者,并且使用的激活参数少于1/3\mathbf{1 / 3}1/3。同时,由于模型架构的优势,Qwen3-235B-A22B-Base在每万亿标记上的推理成本和训练成本远低于Qwen2.5-72B-Base。
Qwen3-32B-Base Qwen3-32B-Base是我们Qwen3系列中最大的密集模型。我们将其与类似规模的基线进行比较,包括Gemma-3-27B(Team等人,2025)和Qwen2.5-32B(Yang等人,2024b)。此外,我们引入了两个强基线:最近开源的MoE模型Llama-4-Scout,其参数量为Qwen3-32B-Base的三倍,但激活参数量为其一半;
表3:Qwen3-235B-A22B-Base与其他代表性强开源基线的比较。最高和次高得分分别用粗体和下划线表示。
Qwen2.5-72B Qwen2.5-Plus Llama-4-Maverick DeepSeek-V3 Qwen3-235B-A22B 基础 基础 基础 基础 基础 架构 密集型 MoE MoE MoE MoE 72B 271B 402B 671B 235B # 激活参数 72B 37B 17B 37B 22B
普通任务
| MMLU | 86.06 | 85.02 | 85.16 | 87.19 | 87.81 |
|---|---|---|---|---|---|
| MMLU-Redux | 83.91 | 82.69 | 84.05 | 86.14 | 87.40 |
| MMLU-Pro | 58.07 | 63.52 | 63.91 | 59.84 | 68.18 |
| SuperGPQA | 36.20 | 37.18 | 40.85 | 41.53 | 44.06 |
| BBH | 86.30 | 85.60 | 83.62 | 86.22 | 88.87 |
数学与STEM任务
| GPQA | 45.88 | 41.92 | 43.94 | 41.92 | 47.47 |
|---|---|---|---|---|---|
| GSM8K | 91.50 | 91.89 | 87.72 | 87.57 | 94.39 |
| MATH | 62.12 | 62.78 | 63.32 | 62.62 | 71.84 |
编码任务
| EvalPlus | 65.93 | 61.43 | 68.38 | 63.75 | 77.60 |
|---|---|---|---|---|---|
| MultiPL-E | 58.70 | 62.16 | 57.28 | 62.26 | 65.94 |
| MBPP | 76.00 | 74.60 | 75.40 | 74.20 | 81.40 |
| CRUX-O | 66.20 | 68.50 | 77.00 | 76.60 | 79.00 |
多语言任务
| MGSM | 82.40 | 82.21 | 79.69 | 82.68 | 83.53 |
|---|---|---|---|---|---|
| MMMLU | 84.40 | 83.49 | 83.09 | 85.88 | 86.70 |
| INCLUDE | 69.05 | 66.97 | 73.47 | 75.17 | 73.46 |
表4:Qwen3-32B-Base与其他强开源基线的比较。最高和次高得分分别用粗体和下划线表示。
Qwen2.5-32B Qwen2.5-72B Gemma-3-27B Llama-4-Scout Qwen3-32B 基础 基础 基础 基础 基础
| 架构 | 密集型 | 密集型 | 密集型 | MoE | 密集型 |
|---|---|---|---|---|---|
| 总参数数 | 32B | 72B | 27B | 109B | 32B |
| 激活参数数 | 32B | 72B | 27B | 17B | 32B |
普通任务
| MMLU | 83.32 | 86.06 | 78.69 | 78.27 | 83.61 |
|---|---|---|---|---|---|
| MMLU-Redux | 81.97 | 83.91 | 76.53 | 71.09 | 83.41 |
| MMLU-Pro | 55.10 | 58.07 | 52.88 | 56.13 | 65.54 |
| SuperGPQA | 33.55 | 36.20 | 29.87 | 26.51 | 39.78 |
| BBH | 84.48 | 86.30 | 79.95 | 82.40 | 87.38 |
数学与STEM任务
| GPQA | 47.97 | 45.88 | 26.26 | 40.40 | 49.49 |
|---|---|---|---|---|---|
| GSM8K | 92.87 | 91.50 | 81.20 | 85.37 | 93.40 |
| MATH | 57.70 | 62.12 | 51.78 | 51.66 | 61.62 |
编码任务
| EvalPlus | 66.25 | 65.93 | 55.78 | 59.90 | 72.05 |
|---|---|---|---|---|---|
| MultiPL-E | 58.30 | 58.70 | 45.03 | 47.38 | 67.06 |
| MBPP | 73.60 | 76.00 | 68.40 | 68.60 | 78.20 |
| CRUX-O | 67.80 | 66.20 | 60.00 | 61.90 | 72.50 |
多语言任务
| MGSM | 78.12 | 82.40 | 73.74 | 79.93 | 83.06 |
|---|---|---|---|---|---|
| MMMLU | 82.40 | 84.40 | 77.62 | 74.83 | 83.83 |
| INCLUDE | 64.35 | 69.05 | 68.94 | 68.09 | 67.87 |
表5:Qwen3-14B-Base、Qwen3-30B-A3B-Base与其他强开源基线的比较。最高和次高得分分别用粗体和下划线表示。
| Gemma-3-12B 基础 | Qwen2.5-14B 基础 | Qwen2.5-32B 基础 | Qwen2.5-Turbo 基础 | Qwen3-14B 基础 | Qwen3-30B-A3B 基础 | |
|---|---|---|---|---|---|---|
| 架构 | 密集型 | 密集型 | 密集型 | MoE | 密集型 | MoE |
| 总参数数 | 12B | 14B | 32B | 42B | 14B | 30B |
| 激活参数数 | 12B | 14B | 32B | 6B | 14B | 3B |
| 普通任务 | ||||||
| MMLU | 73.87 | 79.66 | 83.32 | 79.50 | 81.05 | 81.38 |
| MMLU-Redux | 70.70 | 76.64 | 81.97 | 77.11 | 79.88 | 81.17 |
| MMLU-Pro | 44.91 | 51.16 | 55.10 | 55.60 | 61.03 | 61.49 |
| SuperGPQA | 24.61 | 30.68 | 33.55 | 31.19 | 34.27 | 35.72 |
| BBH | 74.28 | 78.18 | 84.48 | 76.10 | 81.07 | 81.54 |
| 数学与STEM任务 | ||||||
| GPQA | 31.31 | 32.83 | 47.97 | 41.41 | 39.90 | 43.94 |
| GSM8K | 78.01 | 90.22 | 92.87 | 88.32 | 92.49 | 91.81 |
| MATH | 44.43 | 55.64 | 57.70 | 55.60 | 62.02 | 59.04 |
| 编码任务 | ||||||
| EvalPlus | 52.65 | 60.70 | 66.25 | 61.23 | 72.23 | 71.45 |
| MultiPL-E | 43.03 | 54.79 | 58.30 | 53.24 | 61.69 | 66.53 |
| MBPP | 60.60 | 69.00 | 73.60 | 67.60 | 73.40 | 74.40 |
| CRUX-O | 52.00 | 61.10 | 67.80 | 60.20 | 68.60 | 67.20 |
| 多语言任务 | ||||||
| MGSM | 64.35 | 74.68 | 78.12 | 70.45 | 79.20 | 79.11 |
| MMMLU | 72.50 | 78.34 | 82.40 | 79.76 | 79.69 | 81.46 |
| INCLUDE | 63.34 | 60.26 | 64.35 | 59.25 | 64.55 | 67.00 |
表6:Qwen8B-Base与其他强开源基线的比较。最高和次高得分分别用粗体和下划线表示。
| Llama-3-8B 基础 | Qwen2.5-7B 基础 | Qwen2.5-14B 基础 | Qwen3-8B 基础 | |
|---|---|---|---|---|
| 架构 | 密集型 | 密集型 | 密集型 | 密集型 |
| 总参数数 | 8B | 7B | 14B | 8B |
| 激活参数数 | 8B | 7B | 14B | 8B |
| 普通任务 | ||||
| MMLU | 66.60 | 74.16 | 79.66 | 76.89 |
| MMLU-Redux | 61.59 | 71.------ | ||
| 06 | 76.64 | 76.17 | ||
| MMLU-Pro | 35.36 | 45.00 | 51.16 | 56.73 |
| SuperGPQA | 20.54 | 26.34 | 30.6 | |
| 31.64 | ||||
| BBH | 57.70 | 70.40 | 78.18 | 78.40 |
| 数学与STEM任务 | ||||
| GPQA | 25.80 | |||
| ------ 36.36 | 32.83 | 44.44 | ||
| GSM8K | 55.30 | 85.36 | 90.22 | 89.84 |
| MATH | 20.50 | 49.80 | 55.64 | 60.80 |
| 编码任务 | ||||
| EvalPlus | 44.13 | 62.18 | 60.70 | 67.65 |
| MultiPL-E | 31.45 | 50.73 | 54.79 | 58.75 |
| MBPP | 48.40 | 63.40 | 69.00 | 69.80 |
| CRUX-O | 36.80 | 48.50 | 61.10 | 62.00 |
| 多语言任务 | ||||
| MGSM | 38.92 | 63.60 | 74.68 | 76.02 |
| MMMLU | 59.65 | 71.34 | 78.34 | 75.72 |
| INCLUDE | 44.94 | 53.98 | 60.26 | 59.40 |
表7:Qwen3-4B-Base与其他强开源基线的比较。最高和次高得分分别用粗体和下划线表示。
| Gemma-3-4B Base \begin{aligned} & \text { Gemma-3-4B } \\ & \text { Base } \end{aligned} Gemma-3-4B Base | Qwen2.5-3B Base \begin{aligned} & \text { Qwen2.5-3B } \\ & \text { Base } \end{aligned} Qwen2.5-3B Base | Qwen2.5-7B Base |
Qwen3-4B Base |
|
|---|---|---|---|---|
| 架构 | 密集型 | 密集型 | 密集型 | 密集型 |
| 总参数数 | 4B | 3B | 7B | 4B |
| 激活参数数 | 4B | 3B | 7B | 4B |
| 普通任务 | ||||
| MMLU | 59.51 | 65.62 | 74.16 | 72.99 |
| MMLU-Redux | 56.91 | 63.68 | 71.06 | 72.79 |
| MMLU-Pro | 29.23 | 34.61 | 45.00 | 50.58 |
| SuperGPQA | 17.68 | 20.31 | 26.34 | 28.43 |
| BBH | 51.70 | 56.30 | 70.40 | 72.59 |
| 数学与STEM任务 | ||||
| GPQA | 24.24 | 26.26 | 36.36 | 36.87 |
| GSM8K | 43.97 | 79.08 | 85.36 | 87.79 |
| MATH | 26.10 | 42.64 | 49.80 | 54.10 |
| 编码任务 | ||||
| EvalPlus | 43.23 | 46.28 | 62.18 | 63.53 |
| MultiPL-E | 28.06 | 39.65 | 50.73 | 53.13 |
| MBPP | 46.40 | 54.60 | 63.40 | 67.00 |
| CRUX-O | 34.00 | 36.50 | 48.50 | 55.00 |
| 多语言任务 | ||||
| MGSM | 33.11 | 47.53 | 63.60 | 67.74 |
| MMMLU | 59.62 | 65.55 | 71.34 | 71.42 |
| INCLUDE | 49.06 | 45.90 | 53.98 | 56.29 |
表8:Qwen3-1.7B-Base、Qwen3-0.6B-Base与其他强开源基线的比较。最高和次高得分分别用粗体和下划线表示。
| Qwen2.5-0.5B 基础 |
Qwen3-0.6B 基础 |
Gemma-3-1B 基础 |
Qwen2.5-1.5B 基础 |
Qwen3-1.7B 基础 |
|
|---|---|---|---|---|---|
| 架构 | 密集型 | 密集型 | 密集型 | 密集型 | 密集型 |
| 总参数数 | 0.5B | 0.6B | 1B | 1.5B | 1.7B |
| 激活参数数 | 0.5B | 0.6B | 1B | 1.5B | 1.7B |
| 普通任务 | |||||
| MMLU | 47.50 | 52.81 | 26.26 | 60.90 | 62.63 |
| MMLU-Redux | 45.10 | 51.26 | 25.99 | 58.46 | 61.66 |
| MMLU-Pro | 15.69 | 24.74 | 9.72 | 28.53 | 36.76 |
| SuperGPQA | 11.30 | 15.03 | 7.19 | 17.64 | 20.92 |
| BBH | 20.30 | 41.47 | 28.13 | 45.10 | 54.47 |
| 数学与STEM任务 | |||||
| GPQA | 24.75 | 26.77 | 24.75 | 24.24 | 28.28 |
| GSM8K | 41.62 | 59.59 | 2.20 | 68.54 | 75.44 |
| MATH | 19.48 | 32.44 | 3.66 | 35.00 | 43.50 |
| 编码任务 | |||||
| EvalPlus | 31.85 | 36.23 | 8.98 | 44.80 | 52.70 |
| MultiPL-E | 18.70 | 24.58 | 5.15 | 33.10 | 42.71 |
| MBPP | 29.80 | 36.60 | 9.20 | 43.60 | 55.40 |
| CRUX-O | 12.10 | 27.00 | 3.80 | 29.60 | 36.40 |
| 多语言任务 | |||||
| MGSM | 12.07 | 30.99 | 1.74 | 32.82 | 50.71 |
| MMMLU | 31.53 | 50.16 | 26.57 | 60.27 | 63.27 |
| INCLUDE | 24.74 | 34.26 | 25.62 | 39.55 | 45.57 |
表9:Qwen3-235B-A22B(思考)与其他推理基线的比较。最高和次高得分分别用粗体和下划线表示。
| DeepSeek-R1 -Distill-Llama-70B |
QwQ-32B | OpenAI-o3-mini (medium) |
Qwen3-32B | ||
| 架构 | 密集型 | 密集型 | - | 密集型 | |
| 总激活参数数 | 70B | 32B | - | 32B | |
| 总参数数 | 70B | 32B | - | 32B | |
| 普通任务 | MMLU-Redux | 89.3 | 90.0 | 90.0 | 90.9 |
| GPQA-Diamond | 65.2 | 65.6 | 76.8 | 68.4 | |
| C-Eval | 71.8 | 88.4 | 75.1 | 87.3 | |
| LiveBench 2024-11-25 | 54.5 | 72.0 | 70.0 | 74.9 | |
| 对齐任务 | IFEval严格提示 | 79.3 | 83.9 | 91.5 | 85.0 |
| Arena-Hard | 60.6 | 89.5 | 89.0 | 93.8 | |
| AlignBench v1.1 | 6.74 | 8.70 | 8.38 | 8.72 | |
| 创意写作v3 | 62.1 | 82.4 | 74.8 | 81.0 | |
| WritingBench | 6.08 | 7.86 | 7.52 | 7.90 | |
| 数学与文本推理 | MATH-500 | 94.5 | 98.0 | 98.0 | 97.2 |
| AIME’24 | 70.0 | 79.5 | 79.6 | 81.4 | |
| AIME’25 | 56.3 | 69.5 | 74.8 | 72.9 | |
| ZebraLogic | 71.3 | 76.8 | 88.9 | 88.8 | |
| AutoLogi | 83.5 | 88.1 | 86.3 | 87.3 | |
| 代理与编码 | BFCL v3 | 49.3 | 66.4 | 64.6 | 70.3 |
| LiveCodeBench v5 | 54.5 | 62.7 | 66.3 | 65.7 | |
| CodeForces (评分/百分位数) | 1633 / 91.4% | 1982 / 97.7% | 2036 / 98.1% | 1977 / 97.7% | |
| 多语言任务 | Multi-IF | 57.6 | 68.3 | 48.4 | 73.0 |
| INCLUDE | 62.1 | 69.7 | 73.1 | 73.7 |
火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐

所有评论(0)