2024-2025年大模型架构完全指南：从DeepSeek-V3到Kimi K2，14个主流LLM架构对比与收藏级趋势分析

保证100%免费。

程序汪小陈

1224人浏览 · 2025-11-14 09:45:00

程序汪小陈 · 2025-11-14 09:45:00 发布

本文详细对比分析了2024-2025年间14个主流LLM架构的创新设计，包括DeepSeek V3的MLA与MoE、OLMo 2的归一化层优化、Gemma 3的滑动窗口注意力等。文章总结了当前LLM架构的五大趋势：MoE成为大模型标配、注意力机制持续降成本、归一化层精细化、位置嵌入简化、场景化优化日益明确。这些精准优化旨在提升内存效率、推理速度和训练稳定性，为开发者提供实用参考。

1、文章背景与核心目标

从最早的GPT架构到现在，满打满算已经7年了（截至2025年）。说真的，LLM的“骨架”没怎么变，但“细节装修”一直在优化：比如表示位置的方式，从“绝对嵌入”改成了更灵活的RoPE（旋转位置嵌入）；注意力机制从MHA（多头注意力）换成了更省资源的GQA（分组查询注意力）；激活函数也从GELU更成了效率更高的SwiGLU。

不过有个麻烦事儿：想对比LLM性能太难了——数据集、训练方法、超参数这些关键信息要么不公开，要么差异太大。所以这篇文章没纠结“谁跑分更高”，而是专门盯着2024-2025年主流开源LLM的架构设计细节讲，一共覆盖了14个代表性模型，核心就是想弄明白：现在的LLM开发者都在“折腾”哪些技术？

2、主流LLM架构核心特点

1. DeepSeek V3/R1（2024年底-2025年初火起来的）

这模型最大的亮点是两个技术(MLA和MOE)，既省内存又保性能：

1.1 MLA（多头潜在注意力）

之前的注意力机制存KV缓存（就是存之前的键和值，方便后续推理）时，K和V占内存不小。MLA的办法是先把K、V压缩到低维空间存着，推理的时候再恢复成原来的大小——相当于“压缩文件”存，用的时候再“解压”，不仅省内存，实测性能还比MHA和GQA好一点。

1.2 MoE（混合专家系统）

它总共6710亿参数，但不是所有参数都用。每个MoE模块里有256个“专家”（其实就是小的FeedForward模块），推理时只激活9个——1个是所有人都用的“共享专家”，另外8个是按token选的。算下来每次推理只用370亿参数，既保持了大模型的“知识面”，又没那么费资源。

它发布的时候，性能直接超过了Llama 3 405B这些开源模型，算是当时的“开源天花板”之一。

2. OLMo 2（艾伦人工智能研究所2025年1月出的，主打“透明”）

这模型不算跑分最顶的，但胜在训练数据、代码全公开，是个很好的“学习案例”，核心玩的是“归一化层”的花样：

归一化层位置改了：

原来的GPT、Llama这些模型，归一化层（RMSNorm，比老的LayerNorm省参数）都放在注意力/FeedForward模块“前面”（叫Pre-Norm）；OLMo 2反过来，放在“后面”，但还保留在残差连接里面（叫“类Post-Norm”）。这么改是为了让训练更稳定——看上就能发现，它的训练损失波动比Pre-Norm小多了。

加了QK-Norm：

在MHA模块里，给查询（Q）和键（K）单独加了一层RMSNorm，而且是在做RoPE之前。这技术不是它原创的，但加上之后训练稳定性又上了一个台阶（上图对比了Post-Norm、Pre-Norm和OLMo 2的设计，能清楚看到差异）。

另外这个图也很关键：

它显示OLMo 2在“性能-计算成本”图上处于“帕累托前沿”——意思是同计算成本下，它性能最好；同性能下，它最省计算，这对想搭高效模型的人很有参考价值。不过它初期用的还是老的MHA，后来才出了32B的GQA版本。

3. Gemma 3（谷歌的，有点被低估）

谷歌这模型主打“27B参数甜点”——比8B模型强不少，又没70B那么费资源，在Mac Mini上都能跑。核心亮点是“滑动窗口注意力”：

普通注意力是“全局的”，每个token能看所有其他token，但长序列下特费内存。滑动窗口是“局部的”，每个token只看周围一小片（窗口），窗口还会跟着token“滑动”。Gemma 3更狠，搞了5:1的比例——5层局部窗口注意力，才插1层全局注意力，窗口尺寸还从Gemma 2的4096缩到了1024。上图能看到，这么改之后KV缓存内存省了一大截；

上图可以看到，改了之后性能没怎么掉（生成文本的困惑度几乎没变）。

归一化层“前后都加”：

别的模型要么只在模块前（Pre-Norm），要么只在后面（Post-Norm），Gemma 3偏不——注意力/FeedForward模块前后都放RMSNorm，相当于“双重保险”，兼顾两种设计的优点（上图对比OLMo 2和它，能看到多出来的归一化层）。

后来还出了个Gemma 3n，专门给手机用的：

一是用了PLE（逐层嵌入），需要哪个模态的嵌入（文本、音频这些）再从CPU/SSD调，不占内存；二是MatFormer（套娃Transformer），一个大模型能切成多个小模型用，想用多大切多大。

4. Mistral Small 3.1（2025年3月出的，24B参数，主打“快”）

这模型有意思，前代还用滑动窗口注意力，到它这儿直接弃了，改用普通GQA。但它比Gemma 3 27B还快，性能除了数学题差点，其他都更好——秘诀在细节：

自定义了Tokenizer（分词器），切词更高效；
缩减了KV缓存和Transformer层数，省了不少计算。

上图对比了它和Gemma 3 27B的架构，能明显看到层数、头数这些差异。推测它弃用滑动窗口，是因为GQA能兼容FlashAttention这种优化代码，虽然滑动窗口省内存，但不如GQA跑得快。

5. Llama 4（Meta的，继续玩MoE）

Llama 4也用了MoE架构，整体和DeepSeek V3很像，但有几个关键差异：

注意力用的是GQA，不是DeepSeek V3的MLA；
MoE是“少而大的专家”——每个token只激活2个专家，每个专家的隐藏层尺寸有8192；而DeepSeek V3是“多而小的专家”，激活9个，隐藏层才2048；
它不是所有层都用MoE，而是隔一层用一个MoE模块、隔一层用稠密模块（DeepSeek V3除了前3层，全是MoE）。

上图把DeepSeek V3（6710亿参数）和Llama 4 Maverick（4000亿参数）放一起比，架构细节一目了然。另外Llama 4还支持多模态，但文章只聊了它的文本部分。

6. Qwen3（阿里云的，型号特别全）

Qwen3分“Dense版”和“MoE版”，覆盖了从0.6B到235B的参数规模，特别灵活：

Dense版：

最小的0.6B模型，可能是目前最小的主流开源LLM——比Llama 3 1B还小，但设计上更“深”（Transformer块更多）、更“窄”（注意力头少、隐藏层小）。上图对比了它和Llama 3 1B，能看到Qwen3 0.6B内存占用更低，但生成速度稍慢（因为层多）。我自己试了试，本地训练、推理都很方便，已经把Llama 3 1B换成它了。

MOE版：

有30B-A3B（30亿总参数，每次激活3.3亿）和235B-A22B（2350亿总参数，每次激活220亿）两种。有意思的是，它没像DeepSeek V3那样加“共享专家”——前代Qwen2.5-MoE是有的。后来问了Qwen3的开发者，说是没发现共享专家有明显提升，还怕影响推理优化，就给去掉了。上图对比了DeepSeek V3和Qwen3 235B-A22B，除了共享专家，两者架构其实很像。

7. SmolLM3（3B参数，小而强）

这模型没那么火，但性能很能打——比同规模的Qwen3 1.7B、Llama 3 3B都好，而且训练细节公开，很良心。最特别的是它用了NoPE（无位置嵌入）：

一般LLM会用RoPE这种显式的位置信号，但SmolLM3偏不——它完全不加任何位置嵌入，全靠“因果注意力掩码”（每个token只能看前面的token）隐含时序信息。而且它每4层才会省略RoPE，不是所有层都省。

上图是NoPE论文里的图，能看到用NoPE的模型，长序列泛化更好（序列越长，性能掉得越少）。不过要说明的是，NoPE原来只在1亿参数的小模型上测过，SmolLM3把它用到3B模型上，算是个尝试。

上图对比了SmolLM3和其他同规模模型的“胜率”（就是在测试里赢其他模型的比例），它确实比Qwen3 1.7B、Llama 3 3B这些都高。

8. Kimi K2（ moonshot AI的，1万亿参数，开源“巨无霸”）

这模型一出来就炸了——1万亿参数，是目前最大的开源LLM（截至2025年中），性能直接对标闭源的Gemini、Claude、ChatGPT。

架构其实是在DeepSeek V3基础上改的，主要调了两个地方：MoE专家数量更多了，MLA的头数更少了。
它还用了个叫Muon的优化器——之前最多只在16B模型上用过，这是第一次用在这么大的生产模型上。文中对比了它和OLMo 2的训练损失，Kimi K2的损失曲线又平又低，说明训练很稳定，学得也扎实。

后来还出了Kimi K2 Thinking，架构没变，就是把上下文长度从128k扩到了256k——能处理更长的文本了。上图显示它的基准性能甚至超过了一些闭源LLM，就是没和DeepSeek R1直接比，有点可惜。

9. GPT-OSS（OpenAI的，多年来第一次开源模型）

OpenAI自从2019年GPT-2之后，终于又开源了两个模型：20B和120B参数，都是MoE架构。这俩模型有几个有意思的点：

宽架构vs深架构：它走的是“宽”路线——嵌入维度2880（Qwen3才2048），专家的中间层维度也更大；而Qwen3是“深”路线（层更多）。宽架构的好处是推理时并行性好，生成速度快，但内存占用会高一点。

少而大的专家：它只有32个专家，每次激活4个——和现在“多小专家”的趋势反着来。上图是DeepSeekMoE论文的图，能看到多小专家其实更优，但OpenAI这么选可能有自己的考量。

细节上还有三个小设计：用了滑动窗口注意力（每间隔1层用）；加了GPT-2时代的“注意力偏置”，但上图显示这玩意儿对性能影响不大；搞了“注意力Sink”——不是在输入里加特殊token，而是学一个头级的偏置，稳定长上下文的注意力。

上图对比了它和Qwen3的MoE设计，差异很明显。

10. Grok 2.5（xAI的，生产级模型开源）

xAI把去年的旗舰生产模型开源了，270B参数，架构不算特别花，但有个细节值得说：

它用了8个“大专家”，还加了个“共享专家”——这个共享专家其实是个额外的SwiGLU模块，中间维度翻了倍，和传统的共享专家不太一样，但思路是相通的：让通用模式只学一次，省得每个专家都学一遍。

上图对比了它和Qwen3的架构，能看到共享专家的设计。它整体更贴近早期MoE的思路，说明xAI还是优先保证训练稳定。

11. GLM-4.5（智谱AI的，优化函数调用和智能体）

GLM-4.5有两个版本：355B参数的能超过Claude 4 Opus，106B的性能居然快追上355B了，特别适合做智能体、函数调用这些场景。核心亮点是：

前3层用稠密层：它不是一上来就用MoE，而是先放3层稠密层——这么做是为了避免早期MoE的“专家选择不稳定”干扰低阶特征（比如语法、基础语义）的学习，让后续MoE训练更稳。
加了共享专家（和DeepSeek V3一样），还保留了GPT-2式的注意力偏置。

上图对比了它和Qwen3的架构，前3层的稠密层很显眼。

12. Qwen3-Next（阿里云9月出的，Qwen3的升级版）

Qwen3-Next是80B-A3B参数，在Qwen3基础上做了三个大升级，专门优化长上下文和效率：

专家数量翻4倍+加共享专家：原来Qwen3 MoE版专家少，还没共享专家；这次专家数加了4倍，还加了共享专家，容量和效率都提上去了。

Gated DeltaNet+Gated Attention混合：3层Gated DeltaNet（线性注意力变体）配1层Gated Attention（优化过的GQA）——图36能看到这个混合机制。这么改是为了支持262k的原生上下文（原来Qwen3 235B只能支持32k，靠YaRN才能扩到131k），线性注意力的复杂度是O(n)，不是O(n²)，长序列下省太多内存了。
多token预测（MTP）：训练时让模型一次预测t+1到t+k个token，不是只预测t+1——这样推理时用“投机解码”（先猜几个token再验证）的接受率更高，生成速度也更快。

上图对比了原版Qwen3和Qwen3-Next，专家数量和注意力机制的变化很明显。

13. MiniMax-M2（当前开源基准榜首，放弃线性注意力）

MiniMax-M2现在是开源模型里跑分最高的，230B参数，它最有意思的是“走回头路”——前代MiniMax-M1用了线性注意力（Lightning Attention），到M2又换回全注意力了，说是线性注意力在推理、多轮对话里表现不好。它的核心设计有三个：

Per-Layer QK-Norm：之前的QK-Norm是所有注意力头共享一层RMSNorm，M2改成每个头单独用一层——相当于每个头有自己的“归一化规则”，能更好地捕捉不同头的特异性。
MoE更稀疏：230B总参数，每次只激活10亿——比Qwen3 235B的22亿还少，推理更省资源。
部分RoPE：只给注意力头的一半维度加RoPE，另一半不加——怕长序列下RoPE旋转太“极端”，模型没见过，反而掉性能。

上图是它的基准性能图，比其他开源模型都高；前面对比了它和Qwen3的架构，Per-Layer QK-Norm和稀疏MoE很突出。

14. Kimi Linear（10月出的，线性注意力又活了）

MiniMax-M2刚放弃线性注意力，Kimi就出了Kimi Linear，48B参数，把线性注意力又捡起来了，还做了改进：

3:1混合注意力：3层Gated DeltaNet（线性注意力）配1层MLA（多头潜在注意力，替代全注意力）——和Qwen3-Next的比例一样，但用MLA比Qwen3-Next的Gated Attention更省内存。
KDA（Kimi Delta Attention）：Qwen3-Next的Gated DeltaNet用的是“标量门控”（一个值控制一个头），Kimi Linear改成“通道级门控”（每个特征维度都有自己的门控）——对内存的控制更精细，长上下文推理更好。
NoPE：在MLA层完全不加位置嵌入，避免长序列下RoPE需要重新调参的麻烦。

上图显示，它的生成速度和Gated DeltaNet差不多，但性能比DeepSeek V3这种MLA架构还好——算是给线性注意力正名了。不过它只有48B参数，比Kimi K2小20倍，后续能不能用到更大模型上，还得看。

3、2024-2025年LLM架构的关键趋势

MoE成了大模型的“标配”：只要参数过千亿，基本都用MoE——核心就是“总参数搞大（保证知识面），活跃参数搞小（省推理资源）”。不过共享专家的设计有分歧，有的加（DeepSeek V3、GLM-4.5），有的不加（Qwen3、MiniMax-M2）。
注意力机制一直在“降成本”：从MHA到GQA是省参数，到MLA是省KV缓存，到滑动窗口是省局部计算，再到线性注意力（DeltaNet、KDA）是把复杂度从O(n²)降到O(n)——全是为了在长序列下还能跑得动。
归一化层越玩越细：RMSNorm已经完全替代LayerNorm了，位置也从“只在前面”或“只在后面”，变成“前后都加”（Gemma 3）、“后面但在残差里”（OLMo 2）；QK-Norm也成了注意力模块的“必选项”，甚至还出了Per-Layer QK-Norm（MiniMax-M2）。
位置嵌入开始“做减法”：RoPE还是主流，但NoPE（SmolLM3）、部分RoPE（MiniMax-M2）这些“少加甚至不加位置信号”的设计开始冒头——目的都是让模型在长序列下泛化更好，不用每次都重新调RoPE。
场景化优化越来越明确：专门给手机做的（Gemma 3n）、专门搞长上下文的（Kimi K2 Thinking、Qwen3-Next）、专门做智能体的（GLM-4.5）——不再追求“一个模型包打天下”，而是针对具体场景优化。

总的来说，现在的LLM架构没什么“颠覆性突破”，但全是“精准优化”——怎么更省内存、更快推理、更稳训练、更适配场景，这些才是开发者最关心的。后续就看线性注意力能不能用到更大模型上，以及MoE的共享专家设计会不会有更优解了。

4、如何从零学会大模型？小白&程序员都能跟上的入门到进阶指南

当AI开始重构各行各业，你或许听过“岗位会被取代”的焦虑，但更关键的真相是：技术迭代中，“效率差”才是竞争力的核心——新岗位的生产效率远高于被替代岗位，整个社会的机会其实在增加。

但对个人而言，只有一句话算数：
“先掌握大模型的人，永远比后掌握的人，多一次职业跃迁的机会。”

回顾计算机、互联网、移动互联网的浪潮，每一次技术革命的初期，率先拥抱新技术的人，都提前拿到了“职场快车道”的门票。我在一线科技企业深耕12年，见过太多这样的案例：3年前主动学大模型的同事，如今要么成为团队技术负责人，要么薪资翻了2-3倍。

深知大模型学习中，“没人带、没方向、缺资源”是最大的拦路虎，我们联合行业专家整理出这套 《AI大模型突围资料包》，不管你是零基础小白，还是想转型的程序员，都能靠它少走90%的弯路：

✅ 小白友好的「从零到一学习路径图」（避开晦涩理论，先学能用的技能）
✅ 程序员必备的「大模型调优实战手册」（附医疗/金融大厂真实项目案例）
✅ 百度/阿里专家闭门录播课（拆解一线企业如何落地大模型）
✅ 2025最新大模型行业报告（看清各行业机会，避免盲目跟风）
✅ 大厂大模型面试真题（含答案解析，针对性准备offer）
✅ 2025大模型岗位需求图谱（明确不同岗位需要掌握的技能点）

所有资料已整理成包，想领《AI大模型入门+进阶学习资源包》的朋友，直接扫下方二维码获取~

在这里插入图片描述

① 全套AI大模型应用开发视频教程：从“听懂”到“会用”

不用啃复杂公式，直接学能落地的技术——不管你是想做AI应用，还是调优模型，这套视频都能覆盖：

小白入门：提示工程（让AI精准输出你要的结果）、RAG检索增强（解决AI“失忆”问题）
程序员进阶：LangChain框架实战（快速搭建AI应用）、Agent智能体开发（让AI自主完成复杂任务）
工程落地：模型微调与部署（把模型用到实际业务中）、DeepSeek模型实战（热门开源模型实操）

每个技术点都配“案例+代码演示”，跟着做就能上手！

在这里插入图片描述

课程精彩瞬间

在这里插入图片描述

② 大模型系统化学习路线：避免“学了就忘、越学越乱”

很多人学大模型走弯路，不是因为不努力，而是方向错了——比如小白一上来就啃深度学习理论，程序员跳过基础直接学微调，最后都卡在“用不起来”。

我们整理的这份「学习路线图」，按“基础→进阶→实战”分3个阶段，每个阶段都明确：

该学什么（比如基础阶段先学“AI基础概念+工具使用”）
不用学什么（比如小白初期不用深入研究Transformer底层数学原理）
学多久、用什么资料（精准匹配学习时间，避免拖延）

跟着路线走，零基础3个月能入门，有基础1个月能上手做项目！

③ 大模型学习书籍&文档：打好理论基础，走得更稳

想长期在大模型领域发展，理论基础不能少——但不用盲目买一堆书，我们精选了「小白能看懂、程序员能查漏」的核心资料：

入门书籍：《大模型实战指南》《AI提示工程入门》（用通俗语言讲清核心概念）
进阶文档：大模型调优技术白皮书、LangChain官方中文教程（附重点标注，节省阅读时间）
权威资料：斯坦福CS224N大模型课程笔记（整理成中文，避免语言障碍）

所有资料都是电子版，手机、电脑随时看，还能直接搜索重点！

在这里插入图片描述

④ AI大模型最新行业报告：看清机会，再动手

学技术的核心是“用对地方”——2025年哪些行业需要大模型人才？哪些应用场景最有前景？这份报告帮你理清：

行业趋势：医疗（AI辅助诊断）、金融（智能风控）、教育（个性化学习）等10大行业的大模型落地案例
岗位需求：大模型开发工程师、AI产品经理、提示工程师的职责差异与技能要求
风险提示：哪些领域目前落地难度大，避免浪费时间

不管你是想转行，还是想在现有岗位加技能，这份报告都能帮你精准定位！

在这里插入图片描述

⑤ 大模型大厂面试真题：针对性准备，拿offer更稳

学会技术后，如何把技能“变现”成offer？这份真题帮你避开面试坑：

基础题：“大模型的上下文窗口是什么？”“RAG的核心原理是什么？”（附标准答案框架）
实操题：“如何优化大模型的推理速度？”“用LangChain搭建一个多轮对话系统的步骤？”（含代码示例）
场景题：“如果大模型输出错误信息，该怎么解决？”（教你从技术+业务角度回答）

覆盖百度、阿里、腾讯、字节等大厂的最新面试题，帮你提前准备，面试时不慌！

在这里插入图片描述

以上资料如何领取？

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

在这里插入图片描述

为什么现在必须学大模型？不是焦虑，是事实

最近英特尔、微软等企业宣布裁员，但大模型相关岗位却在疯狂扩招：

大厂招聘：百度、阿里的大模型开发岗，3-5年经验薪资能到50K×20薪，比传统开发岗高40%；
中小公司：甚至很多传统企业（比如制造业、医疗公司）都在招“会用大模型的人”，要求不高但薪资可观；
门槛变化：不出1年，“有大模型项目经验”会成为很多技术岗、产品岗的简历门槛，现在学就是抢占先机。

风口不会等任何人——与其担心“被淘汰”，不如主动学技术，把“焦虑”变成“竞争力”！

在这里插入图片描述

最后：全套资料再领一次，别错过这次机会

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

加粗样式

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

火山引擎 ADG 社区

OpenClaw 小白安装指南（Windows版）

（类似一个能自动执行任务的AI机器人），不是游戏。API Key只保存在你本地电脑的加密文件里，不会上传到任何地方。访问：https://github.com/miaoxworld/openclaw-manager/releases。: 一键安装脚本会自动安装Node.js 22+，如果失败，手动下载安装：https://nodejs.org/：在PowerShell中，鼠标右键就是粘贴，不需要按

火山引擎 ADG 社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla