Alt text

核心突破:混合注意力架构 + 极致稀疏MoE + 多Token预测 + 长上下文原生支持


大模型的未来 = Context Scaling + Parameter Scaling

Qwen团队提出未来大模型两大演进方向:

  1. Context Length Scaling —— 支持更长上下文(32K → 256K → 1M+)
  2. Total Parameter Scaling —— 更大总参,更高稀疏度(80B总参,仅激活3B)

Qwen3-Next 就是为此而生的新一代架构 —— 在训练成本仅为Qwen3-32B的9.3% 的前提下,实现性能持平甚至超越旗舰模型Qwen3-235B,推理吞吐提升10倍以上

用1/10的成本,实现10倍的推理效率,性能不降反升 —— 这就是Qwen3-Next的“性价比奇迹”。


二、模型架构四大核心创新

1️⃣ 混合注意力机制:Gated DeltaNet + Gated Attention

传统注意力瓶颈:标准Attention(O(n²))慢,线性Attention(如Mamba)召回弱。

Qwen3-Next 解法:3:1 混合架构

Alt text

组件 占比 优势 优化细节
Gated DeltaNet 75% 高效长序列建模,强ICL能力 替代滑动窗口/Mamba2
Gated Attention 25% 保留强召回能力,增强局部聚焦 输出门控 + 头维256 + 局部RoPE

实验结论:混合架构 > 单一架构(无论纯Attention或纯线性)


2️⃣ 极致稀疏 MoE:80B总参,仅激活3B(3.7%)

模型 总专家数 激活专家数 共享专家 稀疏度
Qwen3-MoE 128 8 ❌ 无 6.25%
Qwen3-Next 512 10+1 ✅ 有1个 3.7%

创新点

  • 专家总数↑ → 总参↑ → 能力↑
  • 激活专家数微增 → 成本可控
  • 引入1个共享专家 → 稳定训练 + 通用能力兜底
  • 全局负载均衡损失 → 专家利用率↑,避免“专家躺平”

3️⃣ 训练稳定性优化:从Norm到初始化

问题/改进类型 Qwen3(存在问题) Qwen3-Next(改进方案) 效果
Norm 相关问题 部分层 Norm Weight 异常高 → 导致数值不稳定 ❌ Zero-Centered RMSNorm → 中心化归一化,稳定梯度
Norm Weight 加权衰减 → 防止权重无界增长 ✅
训练更稳定,收敛更快,实验可复现性提升 ↑
MoE Router 初始化 (隐含问题:专家启动偏差) Router 参数初始化归一化 → 专家公平启动,减少偏差 ✅ 专家利用率更均衡,训练初期更稳定

4️⃣ 多Token预测(MTP):推理加速的秘密武器

类似“投机解码”,但原生集成,训练推理一致。

优势:
  • 提升 Speculative Decoding 接受率
  • 优化 多步推理性能
  • 主干模型性能同步提升(不只是加速模块)

支持框架:SGLang / vLLM(需指定 --speculative-algo NEXTN


Qwen3 与 Qwen3-Next 架构与改进对比总表

Alt text

模型类型 型号 Qwen3 原始架构 / 问题 Qwen3-Next 改进措施 效果 / 优势
Dense(密集模型)
(6 个)
Qwen3-0.6B
Qwen3-1.7B
Qwen3-4B
Qwen3-8B
Qwen3-14B
Qwen3-32B
架构继承 Qwen2.5:
• Grouped Query Attention (GQA)
• SwiGLU 激活函数
• RoPE
• RMSNorm + Pre-normalization

关键问题:
• ❌ 移除 QKV-bias
• ❌ 部分层 Norm Weight 异常高 → 数值不稳定
• ✅ Zero-Centered RMSNorm → 中心化归一化,稳定梯度
• ✅ Norm Weight 加权衰减 → 防止权重无界增长
• ✅ 新增 QK-Norm → 提升训练稳定性
• 训练更稳定
• 收敛更快
• 实验可复现性 ↑
MoE(混合专家模型)
(2 个)
Qwen3-30B-A3B
Qwen3-235B-A22B
架构基础:
• 沿用 Qwen2.5-MoE 细粒度专家分割
• 每 token 激活 8 专家(128 专家池)

关键问题:
• ❌ 无共享专家 → 专家必须高度专业化(易失衡)
• ❌ Router 初始化未归一化 → 专家启动偏差
• ❌ 部分层 Norm Weight 异常高 → 数值不稳定
• ✅ 全局负载均衡损失 → 避免专家“偷懒”
• ✅ Router 参数初始化归一化 → 专家公平启动,减少偏差
• ✅ Zero-Centered RMSNorm + Norm Weight 衰减(同 Dense)
• 专家利用率更高且均衡
• 训练初期更稳定
• 以更少激活参数实现更高任务性能
• 整体训练稳定性与可复现性显著提升

三、预训练:15T Token,10倍效率提升

指标 Qwen3-32B Qwen3-Next-80B-A3B 提升幅度
预训练Token 36T 15T(子集) ↓ 58%
GPU Hours 100% 9.3% ↓ 90.7%
激活参数(Non-Emb) 32B 3B ↓ 90.6%
性能表现 Baseline 持平或略优

更少数据 + 更少计算 + 更少激活参数 = 更优性能 → 架构创新碾压暴力堆料。


四、推理效率:长上下文吞吐提升10倍+

Alt text

Prefill阶段(输入处理)

上下文长度 吞吐提升 vs Qwen3-32B
4K 7x
>32K 10x+

Decode阶段(输出生成)

上下文长度 吞吐提升 vs Qwen3-32B
4K 4x
>32K 10x+

关键价值:真正实现长文档、长对话、长代码实时交互体验


五、模型性能:小身材,大能量

Base模型:Qwen3-Next-80B-A3B-Base

  • 激活参数仅为Qwen3-32B的1/10
  • 性能全面超越Qwen3-32B-Base & Qwen3-30B-A3B

Alt text


Instruct模型:媲美235B旗舰

Alt text

Alt text

模型 RULER(长上下文) 通用能力 256K表现
Qwen3-30B-A3B-Instruct-2507 ❌ 较弱 中等 不支持
Qwen3-235B-A22B-Instruct-2507 ✅ 强 极强 ✅ 支持
Qwen3-Next-80B-A3B-Instruct 更强 持平 超越235B

在256K长上下文任务中,80B稀疏模型 > 235B稠密模型 → 混合注意力架构的绝对优势。


Thinking模型:推理能力逼近旗舰,超越Gemini

Alt text

模型 数学/代码/推理能力 对比Gemini-2.5-Flash-Thinking
Qwen3-30B/32B-Thinking 中等 ❌ 落后
Gemini-2.5-Flash-Thinking
Qwen3-235B-A22B-Thinking-2507 极强 ✅ 超越
Qwen3-Next-80B-A3B-Thinking 极强 超越

在多项基准测试中逼近235B旗舰,部分指标反超闭源Gemini


六、开始使用:开源 + 云服务 + 智能体

1️⃣ Hugging Face(Transformers)

pip install git+https://github.com/huggingface/transformers.git@main
from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained(
    "Qwen/Qwen3-Next-80B-A3B-Instruct",
    device_map="auto",
    torch_dtype="auto"
)

注意:当前Transformers不支持MTP,建议用SGLang/vLLM。


2️⃣ 高性能推理:SGLang / vLLM

SGLang(推荐用于MTP)
pip install 'sglang[all] @ git+https://github.com/sgl-project/sglang.git@main#subdirectory=python'
SGLANG_ALLOW_OVERWRITE_LONGER_CONTEXT_LEN=1 \
python -m sglang.launch_server \
  --model-path Qwen/Qwen3-Next-80B-A3B-Instruct \
  --port 30000 \
  --tp-size 4 \
  --context-length 262144 \
  --speculative-algo NEXTN \
  --speculative-num-steps 3
vLLM
pip install git+https://github.com/vllm-project/vllm.git
VLLM_ALLOW_LONG_MAX_MODEL_LEN=1 \
vllm serve Qwen/Qwen3-Next-80B-A3B-Instruct \
  --port 8000 \
  --tensor-parallel-size 4 \
  --max-model-len 262144 \
  --speculative-config '{"method":"qwen3_next_mtp","num_speculative_tokens":2}'

3️⃣ 智能体开发:Qwen-Agent

from qwen_agent.agents import Assistant

llm_cfg = {
    'model': 'Qwen3-Next-80B-A3B-Instruct',
    'model_server': 'http://localhost:8000/v1',
    'api_key': 'EMPTY',
}

tools = ['code_interpreter', {'mcpServers': {...}}]

bot = Assistant(llm=llm_cfg, function_list=tools)

内置工具调用模板 + 解析器,智能体开发效率提升10倍


4️⃣ 超长上下文(>256K):启用YaRN缩放

方法一:修改 config.json
{
  "rope_scaling": {
    "rope_type": "yarn",
    "factor": 4.0,
    "original_max_position_embeddings": 262144
  }
}
方法二:启动参数(vLLM示例)
--rope-scaling '{"rope_type":"yarn","factor":4.0,"original_max_position_embeddings":262144}' \
--max-model-len 1010000

注意:仅在需要时启用,避免影响短文本性能。


七、总结:Qwen3-Next 的划时代意义

维度 Qwen3 Qwen3-Next 革命性提升
架构 标准Attention + MoE 混合Attention + 高稀疏MoE 效率↑ 性能↑ 稳定性↑
成本 高训练成本 训练成本仅9.3% 开源模型训练门槛↓
推理 长上下文效率低 >32K吞吐提升10倍 实时长文档交互成为可能
性能 235B为旗舰 80B媲美235B,部分超越 小模型干翻大模型
生态 开源 开源 + 云服务 + 智能体 + MTP支持 全栈开发者友好

Qwen3.5 正在路上

Qwen团队表示将持续优化Qwen3-Next架构,开发Qwen3.5,目标:

  • 更高智能水平
  • 更强生产力工具
  • 更深智能体集成
  • 更广多模态支持

Qwen3-Next 不是升级,是重构 —— 它重新定义了“高效大模型”的标准:
更低的成本,更高的性能,更长的上下文,更快的推理。

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐