Qwen3-Next：长上下文 + 高稀疏MoE + 混合注意力 = 下一代大模型架构革命

Qwen3-Next提出新一代大模型架构创新，通过混合注意力机制（75% Gated DeltaNet + 25% Gated Attention）、极致稀疏MoE（80B总参/3B激活）、训练稳定性优化及多Token预测技术，实现突破性进展。该架构在仅消耗Qwen3-32B 9.3%训练成本下，性能持平甚至超越235B旗舰模型，推理吞吐提升10倍以上，支持256K长上下文处理。核心优势体现为：更

timeflies99

980人浏览 · 2025-10-24 10:54:59

timeflies99 · 2025-10-24 10:54:59 发布

Alt text

核心突破：混合注意力架构 + 极致稀疏MoE + 多Token预测 + 长上下文原生支持

大模型的未来 = Context Scaling + Parameter Scaling

Qwen团队提出未来大模型两大演进方向：

Context Length Scaling —— 支持更长上下文（32K → 256K → 1M+）
Total Parameter Scaling —— 更大总参，更高稀疏度（80B总参，仅激活3B）

Qwen3-Next 就是为此而生的新一代架构 —— 在训练成本仅为Qwen3-32B的9.3% 的前提下，实现性能持平甚至超越旗舰模型Qwen3-235B，推理吞吐提升10倍以上。

用1/10的成本，实现10倍的推理效率，性能不降反升 —— 这就是Qwen3-Next的“性价比奇迹”。

二、模型架构四大核心创新

1️⃣ 混合注意力机制：Gated DeltaNet + Gated Attention

传统注意力瓶颈：标准Attention（O(n²)）慢，线性Attention（如Mamba）召回弱。

Qwen3-Next 解法：3:1 混合架构

Alt text

组件	占比	优势	优化细节
Gated DeltaNet	75%	高效长序列建模，强ICL能力	替代滑动窗口/Mamba2
Gated Attention	25%	保留强召回能力，增强局部聚焦	输出门控 + 头维256 + 局部RoPE

实验结论：混合架构 > 单一架构（无论纯Attention或纯线性）

2️⃣ 极致稀疏 MoE：80B总参，仅激活3B（3.7%）

模型	总专家数	激活专家数	共享专家	稀疏度
Qwen3-MoE	128	8	❌ 无	6.25%
Qwen3-Next	512	10+1	✅ 有1个	3.7%

创新点：

专家总数↑ → 总参↑ → 能力↑

激活专家数微增 → 成本可控

引入1个共享专家 → 稳定训练 + 通用能力兜底

全局负载均衡损失 → 专家利用率↑，避免“专家躺平”

3️⃣ 训练稳定性优化：从Norm到初始化

问题/改进类型	Qwen3（存在问题）	Qwen3-Next（改进方案）	效果
Norm 相关问题	部分层 Norm Weight 异常高 → 导致数值不稳定 ❌	• Zero-Centered RMSNorm → 中心化归一化，稳定梯度 • Norm Weight 加权衰减 → 防止权重无界增长 ✅	训练更稳定，收敛更快，实验可复现性提升 ↑
MoE Router 初始化	（隐含问题：专家启动偏差）	• Router 参数初始化归一化 → 专家公平启动，减少偏差 ✅	专家利用率更均衡，训练初期更稳定

4️⃣ 多Token预测（MTP）：推理加速的秘密武器

类似“投机解码”，但原生集成，训练推理一致。

优势：

提升 Speculative Decoding 接受率
优化 多步推理性能
主干模型性能同步提升（不只是加速模块）

支持框架：SGLang / vLLM（需指定 --speculative-algo NEXTN）

Qwen3 与 Qwen3-Next 架构与改进对比总表

Alt text

模型类型	型号	Qwen3 原始架构 / 问题	Qwen3-Next 改进措施	效果 / 优势
Dense（密集模型）（6 个）	Qwen3-0.6B Qwen3-1.7B Qwen3-4B Qwen3-8B Qwen3-14B Qwen3-32B	架构继承 Qwen2.5： • Grouped Query Attention (GQA) • SwiGLU 激活函数 • RoPE • RMSNorm + Pre-normalization 关键问题： • ❌ 移除 QKV-bias • ❌ 部分层 Norm Weight 异常高 → 数值不稳定	• ✅ Zero-Centered RMSNorm → 中心化归一化，稳定梯度 • ✅ Norm Weight 加权衰减 → 防止权重无界增长 • ✅ 新增 QK-Norm → 提升训练稳定性	• 训练更稳定 • 收敛更快 • 实验可复现性 ↑
MoE（混合专家模型）（2 个）	Qwen3-30B-A3B Qwen3-235B-A22B	架构基础： • 沿用 Qwen2.5-MoE 细粒度专家分割 • 每 token 激活 8 专家（128 专家池）关键问题： • ❌ 无共享专家 → 专家必须高度专业化（易失衡） • ❌ Router 初始化未归一化 → 专家启动偏差 • ❌ 部分层 Norm Weight 异常高 → 数值不稳定	• ✅ 全局负载均衡损失 → 避免专家“偷懒” • ✅ Router 参数初始化归一化 → 专家公平启动，减少偏差 • ✅ Zero-Centered RMSNorm + Norm Weight 衰减（同 Dense）	• 专家利用率更高且均衡 • 训练初期更稳定 • 以更少激活参数实现更高任务性能 • 整体训练稳定性与可复现性显著提升

三、预训练：15T Token，10倍效率提升

指标	Qwen3-32B	Qwen3-Next-80B-A3B	提升幅度
预训练Token	36T	15T（子集）	↓ 58%
GPU Hours	100%	9.3%	↓ 90.7%
激活参数（Non-Emb）	32B	3B	↓ 90.6%
性能表现	Baseline	持平或略优	✅

更少数据 + 更少计算 + 更少激活参数 = 更优性能 → 架构创新碾压暴力堆料。

四、推理效率：长上下文吞吐提升10倍+

Alt text

Prefill阶段（输入处理）

上下文长度	吞吐提升 vs Qwen3-32B
4K	7x
>32K	10x+

Decode阶段（输出生成）

上下文长度	吞吐提升 vs Qwen3-32B
4K	4x
>32K	10x+

关键价值：真正实现长文档、长对话、长代码的实时交互体验。

五、模型性能：小身材，大能量

Base模型：Qwen3-Next-80B-A3B-Base

激活参数仅为Qwen3-32B的1/10
性能全面超越Qwen3-32B-Base & Qwen3-30B-A3B

Alt text

Instruct模型：媲美235B旗舰

Alt text

模型	RULER（长上下文）	通用能力	256K表现
Qwen3-30B-A3B-Instruct-2507	❌ 较弱	中等	不支持
Qwen3-235B-A22B-Instruct-2507	✅ 强	极强	✅ 支持
Qwen3-Next-80B-A3B-Instruct	✅ 更强	✅ 持平	✅ 超越235B

在256K长上下文任务中，80B稀疏模型 > 235B稠密模型 → 混合注意力架构的绝对优势。

Thinking模型：推理能力逼近旗舰，超越Gemini

Alt text

模型	数学/代码/推理能力	对比Gemini-2.5-Flash-Thinking
Qwen3-30B/32B-Thinking	中等	❌ 落后
Gemini-2.5-Flash-Thinking	强	—
Qwen3-235B-A22B-Thinking-2507	极强	✅ 超越
Qwen3-Next-80B-A3B-Thinking	极强	✅ 超越

在多项基准测试中逼近235B旗舰，部分指标反超闭源Gemini。

六、开始使用：开源 + 云服务 + 智能体

1️⃣ Hugging Face（Transformers）

pip install git+https://github.com/huggingface/transformers.git@main

from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained(
    "Qwen/Qwen3-Next-80B-A3B-Instruct",
    device_map="auto",
    torch_dtype="auto"
)

注意：当前Transformers不支持MTP，建议用SGLang/vLLM。

2️⃣ 高性能推理：SGLang / vLLM

SGLang（推荐用于MTP）

pip install 'sglang[all] @ git+https://github.com/sgl-project/sglang.git@main#subdirectory=python'

SGLANG_ALLOW_OVERWRITE_LONGER_CONTEXT_LEN=1 \
python -m sglang.launch_server \
  --model-path Qwen/Qwen3-Next-80B-A3B-Instruct \
  --port 30000 \
  --tp-size 4 \
  --context-length 262144 \
  --speculative-algo NEXTN \
  --speculative-num-steps 3

vLLM

pip install git+https://github.com/vllm-project/vllm.git

VLLM_ALLOW_LONG_MAX_MODEL_LEN=1 \
vllm serve Qwen/Qwen3-Next-80B-A3B-Instruct \
  --port 8000 \
  --tensor-parallel-size 4 \
  --max-model-len 262144 \
  --speculative-config '{"method":"qwen3_next_mtp","num_speculative_tokens":2}'

3️⃣ 智能体开发：Qwen-Agent

from qwen_agent.agents import Assistant

llm_cfg = {
    'model': 'Qwen3-Next-80B-A3B-Instruct',
    'model_server': 'http://localhost:8000/v1',
    'api_key': 'EMPTY',
}

tools = ['code_interpreter', {'mcpServers': {...}}]

bot = Assistant(llm=llm_cfg, function_list=tools)

内置工具调用模板 + 解析器，智能体开发效率提升10倍。

4️⃣ 超长上下文（>256K）：启用YaRN缩放

方法一：修改 config.json

{
  "rope_scaling": {
    "rope_type": "yarn",
    "factor": 4.0,
    "original_max_position_embeddings": 262144
  }
}

方法二：启动参数（vLLM示例）

--rope-scaling '{"rope_type":"yarn","factor":4.0,"original_max_position_embeddings":262144}' \
--max-model-len 1010000

注意：仅在需要时启用，避免影响短文本性能。

七、总结：Qwen3-Next 的划时代意义

维度	Qwen3	Qwen3-Next	革命性提升
架构	标准Attention + MoE	混合Attention + 高稀疏MoE	效率↑ 性能↑ 稳定性↑
成本	高训练成本	训练成本仅9.3%	开源模型训练门槛↓
推理	长上下文效率低	>32K吞吐提升10倍	实时长文档交互成为可能
性能	235B为旗舰	80B媲美235B，部分超越	小模型干翻大模型
生态	开源	开源 + 云服务 + 智能体 + MTP支持	全栈开发者友好

Qwen3.5 正在路上

Qwen团队表示将持续优化Qwen3-Next架构，开发Qwen3.5，目标：

更高智能水平
更强生产力工具
更深智能体集成
更广多模态支持

Qwen3-Next 不是升级，是重构 —— 它重新定义了“高效大模型”的标准：
更低的成本，更高的性能，更长的上下文，更快的推理。

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

Chess用户界面设计：Tailwind CSS样式系统和组件库

GitHub推荐项目精选中的ch/chess是一个类似chess.com的多人在线象棋平台，它采用现代化的前端技术栈构建，尤其在用户界面设计上通过Tailwind CSS样式系统和组件库实现了优雅且功能丰富的交互体验。本文将深入探讨该项目如何利用Tailwind CSS打造一致的设计语言和高效的组件系统，为象棋爱好者提供沉浸式的游戏界面。## 🎨 Tailwind CSS样式系统：构建统一视

火山引擎 ADG 社区

终极指南：GPT-Engineer如何通过AI自动发现代码问题并提升质量

GPT-Engineer是一款强大的AI驱动代码工具，它能帮助开发者自动检测潜在代码问题、优化代码质量，让编程效率提升3倍以上。无论是新手还是资深开发者，都能通过这款工具轻松发现代码中的隐藏缺陷，减少调试时间，释放更多精力在创造性工作上。## 一键发现代码问题：GPT-Engineer的AI审查魔力GPT-Engineer的核心能力在于其内置的智能代码分析系统。通过集成Python代码格式

火山引擎 ADG 社区

SatDump中的纠错编码技术：从RS码到Turbo码的完整实现指南

在卫星数据传输过程中，信号往往会受到各种干扰，导致数据错误。SatDump作为一款通用卫星数据处理软件，集成了多种先进的纠错编码技术，确保从卫星接收到的数据能够准确解码。本文将深入解析SatDump中从Reed-Solomon（RS）码到Turbo码的实现细节，帮助读者理解这些技术如何保障卫星通信的可靠性。## 为什么纠错编码对卫星数据至关重要？卫星与地面站之间的通信链路面临着空间辐射、大