戳下方名片,关注并星标

回复“1024”获取2TB学习资源!

👉体系化学习:运维工程师打怪升级进阶之路 4.0

—   特色专栏  —

MySQL/PostgreSQL/MongoDB

ElasticSearch/Hadoop/Redis

Kubernetes/Docker/DevOps

Kafka/RabbitMQ/Zookeeper

监控平台/应用与服务/集群管理

Nginx/Git/Tools/OpenStack

大家好,我是民工哥!

开源大模型真的是越来越卷了,一波接一波!

图片

2025年9月12日阿里正式开源下一代基础模型架构Qwen3-Next,并发布Qwen3-Next-80B-A3B系列模型,该系列以高稀疏MoE架构、混合注意力机制及多token预测技术为核心,实现了模型性能与计算效率的双重突破。

高稀疏度MoE(混合专家)架构

  • 参数激活比达1:50:总参数80B的模型仅激活3B参数(实际激活比例可能因版本略有差异,如部分报道提及30亿激活参数),通过动态路由机制选择最相关的专家子集,显著降低计算开销。

  • 专家数量扩展:相比Qwen3的128个总专家,Qwen3-Next扩展至512个总专家,搭配10个路由专家和1个共享专家,提升模型容量与资源利用率。

图片

混合注意力机制

  • Gated DeltaNet + Gated Attention:结合线性注意力(Gated DeltaNet)与自研门控注意力(Gated Attention),突破传统Transformer的二次复杂度限制。

  • 性能优化:在3:1的混合比例下(75%层使用Gated DeltaNet,25%层保留标准注意力),实现上下文学习与计算效率的双重提升,支持百万token超长上下文处理。

多token预测(MTP)技术

  • 训练范式革新:模型在预训练阶段同步预测多个token,学会语言规划与长程逻辑,输出更连贯且训练效率更高。

  • 推理加速:通过多步推理一致性优化,提升Speculative Decoding接受率,解码阶段吞吐量提升近4倍(4k上下文)至10倍以上(32k+上下文)。

性能媲美千亿级模型

  • 基准测试表现:在编程(LiveCodeBench v6)、人类偏好对齐(Arena-Hard v2)等评测中,Qwen3-Next-Instruct超越Qwen3-235B-A22B-Instruct-2507;在数学推理(AIME25)中,Qwen3-Next-Thinking以87.8分全面超越Gemini2.5-Flash-Thinking。

图片图片

  • 长文本处理能力:支持百万token超长上下文,推理吞吐量较Qwen3-32B提升10倍以上(32k+上下文场景)。

图片图片

训练成本降低超90%

  • 资源效率:仅需Qwen3-32B 9.3%的GPU计算资源即可完成预训练,训练成本降至密集模型的1/10以下。

  • 稳定性优化:通过Zero-Centered RMSNorm、weight decay及MoE router参数归一化等技术,解决高稀疏MoE架构下的训练稳定性问题。

新模型已在 Qwen.ai 上线,并上传到了 HuggingFace。

  • 新模型网页版:https://chat.qwen.ai/

  • HuggingFace:https://huggingface.co/collections/Qwen/qwen3-next-68c25fd6838e585db8eeea9d

  • Kaggle:https://www.kaggle.com/models/qwen-lm/qwen3-next-80b

并且,Qwen3-Next 模型也已经在很多第三方平台中上线。

通义千问Qwen衍生模型数超17万,稳居全球第一开源模型。

2025年上半年,阿里通义在中国企业级大模型调用市场中占比17.7%,位列第一。

👍 既然都看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~

公众号读者专属技术群

构建高质量的技术交流社群,欢迎从事后端开发、运维技术进群(备注岗位,已在技术交流群的请勿重复添加微信好友)。主要以技术交流、内推、行业探讨为主,请文明发言。广告人士勿入,切勿轻信私聊,防止被骗。

扫码加我好友,拉你进群

运维常用 AI 工具与传统运维工具大集合!总有一款合你的意

为什么高性能场景选用 Postgres SQL 而不是 MySQL?

突发!Claude 禁止中国控股企业使用

字节跳动开除 100 人!

9 月编程语言排行榜 | Perl 杀进前十,Python 稳居榜首,C、C++ 依旧胜 Java 一筹

快手 AI 超级员工上线!一句话剪出完整视频,从文案到发布一条龙

百度文心大模型 X1.1 正式发布!这三大能力突出

大爆发!阿里云 80 亿、火山引擎 33 亿、华为云 29 亿、腾讯云 16 亿、百度云 14 亿

超 1 万亿参数!阿里史上最大最强模型 Qwen3-Max-Preview 免费上线

突发!微博崩了!

12306 到底有多牛逼?

PS:因为公众号平台更改了推送规则,如果不想错过内容,记得读完点一下在看,加个星标,这样每次新文章推送才会第一时间出现在你的订阅列表里。点在看支持我们吧!

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐