大模型如何掌握、抽象与高维化人类知识——深层原理与记忆机制全景解析
🧩 大模型如何掌握、抽象与高维化人类知识——深层原理与记忆机制全景解析
生成日期:2026年6月26日
作者:WorkBuddy(本地龙虾AI助手)
提示词作者:将狼才鲸
写给谁:非计算机/非人工智能(Artificial Intelligence,简称AI)科班出身的普通理工科本科生
写作风格:科普向、有趣、图表丰富、专业引用、中英文术语对照
核心问题:大语言模型为什么能"理解"人类大部分知识?它的参数(Parameter)、向量(Vector)、记忆(Memory)到底怎么运作?和生物大脑差多远?强人工智能(Artificial General Intelligence,简称AGI)往哪走?
目录 📋
- 大模型的参数是什么——从浮点数到知识
- 大模型参数 vs 生物神经元——信息量的鸿沟
- 向量空间——万维语义宇宙
- 训练后参数锁死了吗——动态学习新知识
- 全球持续训练与动态更新——谁在做什么
- "注意力就是一切"的诞生——一篇论文改写AI历史
- 个体记忆的参数化——把"你"编码进模型
- 混合专家MoE——全知模型下的专精个体
- 个人永久记忆赛道——键值对 vs 参数+向量
- 记忆的动态增删改——参数级操控的可行手段
- 强人工智能如何实现——持续运行的自主Agent
- 记忆恢复术——参数黑匣子的逆变换
- 大模型 + 个体记忆 + 记忆可恢复——三位一体的AI
- 附录:关键术语表
- 参考文献与进阶阅读
1. 🧱 大模型的参数是什么——从浮点数到知识
1.1 一个参数到底是什么?
大模型中的"参数"(Parameter),本质是一个浮点数(Floating-point number)——通常用16位浮点格式(半精度浮点,FP16/BF16)或8位整数格式(INT8)存储。
一个参数 = 一个数字,例如 0.0073, -1.528, 0.0004
当几百亿、几千亿甚至上万亿个数字按照特定规则组织起来,它们就能编码人类知识的结构。大模型的知识本质上存储在万亿个浮点数的排列与组合里。
1.2 参数按什么类型存储?
| 存储格式 | 位数 | 精度 | 典型用途 | 中文说明 |
|---|---|---|---|---|
| FP32 | 32位 | 高 | 训练时梯度计算 | 32位单精度浮点 |
| FP16/BF16 | 16位 | 中 | 推理和训练的主力格式 | 16位半精度浮点 |
| INT8 | 8位 | 低 | 量化推理,节省显存 | 8位整数量化 |
| FP4/NF4 | 4位 | 极低 | 极致量化(如QLoRA技术) | 4位超低精度量化 |
以70亿(7B,B=Billion=十亿)参数模型为例,用FP16存储需要约14GB显存。这也是为什么消费级显卡(通常8-16GB显存)运行大模型时资源紧张。
1.3 参数按什么模式组织?
大模型的"骨架"是Transformer架构(变换器架构,2017年提出),参数主要分布在以下几类"层"中:
┌─────────────────────────────────────────────┐
│ Transformer Block(变换器块) ×N层 │
│ ┌─────────────────────────────────────────┐ │
│ │ 1. 自注意力层(Self-Attention) │ │
│ │ - W_Q (查询矩阵 Query) d×d │ │
│ │ - W_K (键矩阵 Key) d×d │ │
│ │ - W_V (值矩阵 Value) d×d │ │
│ │ - W_O (输出矩阵 Output) d×d │ │
│ ├─────────────────────────────────────────┤ │
│ │ 2. 前馈网络层(FFN, Feed-Forward Network)│ │
│ │ - W_up d×4d (升维矩阵) │ │
│ │ - W_down 4d×d (降维矩阵) │ │
│ │ - W_gate d×4d (门控矩阵, GLU变体) │ │
│ ├─────────────────────────────────────────┤ │
│ │ 3. 层归一化(RMSNorm/LayerNorm) │ │
│ │ - γ (缩放参数 gamma) d │ │
│ │ - β (偏移参数 beta) d │ │
│ └─────────────────────────────────────────┘ │
│ │
│ 4. 词嵌入矩阵(Embedding) 词表大小×d │
│ 5. 位置编码(Positional Encoding) │
│ 6. 输出头(LM Head) d×词表大小 │
└─────────────────────────────────────────────┘
以DeepSeek-V4为例(来源:DeepSeek技术报告):
- 隐藏维度 d ≈ 8192(即每个内部向量的长度)
- 注意力头数 = 128
- 层数 ≈ 64
- 前馈网络(FFN)中间维度 ≈ 20480
- 架构:MoE(混合专家),总参数约284B(DeepSeek-V4-Flash版本),激活13B
不同模型的配置对比如下:
| 模型 | 隐藏维度 d | 层数 | 注意力头数 | 发布方 |
|---|---|---|---|---|
| GPT-5.5 (推测) | ~16384 | ~120 | ~128 | OpenAI |
| Claude Opus 4.7 (推测) | ~12288 | ~96 | ~128 | Anthropic |
| Gemini 3.1 Ultra (推测) | ~16384 | ~128 | ~128 | Google DeepMind |
| DeepSeek-V4 | ~8192 | ~64 | ~128 | 深度求索 |
| 智谱GLM-5.2 | 744B总参/40B激活 | MoE | DSA | 智谱AI |
| 通义千问Qwen3.5.5-122B | 122B总参/10B激活 | MoE | GQA | 阿里巴巴 |
| Kimi-K2.6 | 1T总参/32B激活 | MoE | 优化注意力 | 月之暗面 |
| LLaMA 4.5-405B (推测) | ~8192 | ~96 | ~64 | Meta |
| Gemma-4-26B-A4B | 25.2B总参/4B激活 | MoE | GQA | |
| 百川4 | ~千亿级 | 未公开 | 未公开 | 百川智能 |
💡 说明:隐藏维度d越大,每个位置的表示能力越强——高维空间中向量可编码的信息量随维度指数增长(Cover定理)。
1.4 参数之间有没有联系?这种联系如何保存?
有。 参数之间不是孤岛,它们通过以下机制建立联系:
方式一:矩阵乘法(Matrix Multiplication)——结构化的联系
每一层的参数是一个矩阵(Matrix,即二维数字表格),输入向量与矩阵相乘,产生输出向量。这个过程本质是在做线性变换(Linear Transformation):
y = W·x + b
(输出 = 权重矩阵 × 输入向量 + 偏置项)
- W中的每个参数不是孤立的,它和同一行/列的其他参数共同决定一个"语义方向"
- 多层叠加后,参数之间形成了隐式的层级联系——浅层参数捕捉字形、词法,深层参数捕捉语义、推理
方式二:注意力机制(Attention Mechanism)——动态的联系
自注意力层(Self-Attention)是大模型最核心的创新。每个词(Token,词元)的查询向量(Query)与所有其他词的键向量(Key)做点积运算(Dot Product),得到注意力权重:
注意力(Q,K,V) = 柔性最大值函数(Q·K^T / √d_k) · V
即:Attention(Q,K,V) = softmax(Q·K^T / √d_k) · V
这使参数间的联系是数据驱动的、动态的——输入"苹果很好吃"和"苹果股价跌了",同一个"苹果"会激活完全不同的参数联系路径。前者关联到食物、味道相关的参数区域,后者关联到金融、科技相关的参数区域。
1.5 参数有向量的概念吗?
有,向量(Vector)是大模型最核心的概念之一。 模型内部几乎一切都是向量:
| 概念 | 维度 | 英文 | 说明 |
|---|---|---|---|
| 词嵌入 | d (如7168) | Token Embedding | 每个词/子词对应一个d维向量 |
| 隐藏状态 | d | Hidden State | 每层每个位置有一个d维向量 |
| Query/Key/Value | d_k | 查询/键/值向量 | 注意力中的三类向量 |
| FFN中间表示 | 4d | FFN Intermediate | 前馈网络展开的高维表示 |
一个向量就是一组有序的数字,如 [0.32, -1.18, 0.87, ..., 0.03],共7168个数字。每个数字代表该向量在对应维度上的"坐标",所有维度合在一起就构成了该向量的"语义位置"。
1.6 高维矩阵排列规则有多少?如何存储?
排列规则就是模型架构(Model Architecture)——它定义了矩阵的形状、连接方式和计算顺序。
| 规则类型 | 数量 | 说明 |
|---|---|---|
| 矩阵形状 | ~2N+4 (N为层数) | 每层4个注意力矩阵+3个FFN矩阵 |
| 激活函数(Activation) | 2-3种 | SiLU/SwiGLU(门控线性单元)、softmax(柔性最大值)、GELU(高斯误差线性单元)等 |
| 归一化方式(Normalization) | 1种 | RMSNorm(均方根归一化)或LayerNorm(层归一化) |
| 残差连接(Residual Connection) | N个 | 每层一个跳跃连接(Skip Connection) |
| 位置编码(Positional Encoding) | 1种 | RoPE(旋转位置编码)、ALiBi等 |
关键理解:架构规则不是作为参数存储的,而是硬编码在模型代码中。参数只存储矩阵的具体数值——即那些小数。
📖 来源:
- Vaswani et al., “Attention Is All You Need”, NeurIPS 2017. arXiv:1706.03762
(中文:瓦斯瓦尼等,《注意力就是你所需的一切》,神经信息处理系统大会2017)- DeepSeek-AI, “DeepSeek-V4 Technical Report”, 2026.
(中文:深度求索AI,《DeepSeek-V4技术报告》,2026)
2. 🧠 大模型参数 vs 生物神经元——信息量的鸿沟
2.1 数量对比
| 对比项 | 数量 | 来源 |
|---|---|---|
| 人类大脑神经元总数 | ~860亿 | Herculano-Houzel, 2009, Frontiers in Neuroscience |
| 大脑皮层神经元 | ~160亿 | 同上 |
| 神经元间突触连接(Synapse) | ~100-1000万亿 | Principles of Neural Science(《神经科学原理》), Kandel et al. |
| 当前最大大模型参数(闭源推测) | ~10万亿 | GPT-5.5/Claude Opus 4.7等,各厂商未完全公开 |
| Kimi-K2.6 参数 | ~1万亿(总)/ ~32B激活 | 月之暗面 |
| 智谱GLM-5.2 参数 | ~744B(总)/ 40B激活 | 智谱AI |
| DeepSeek-V4-Flash 参数 | ~284B(总)/ 13B激活 | 深度求索 |
| 通义千问Qwen3.5.5-122B 参数 | 122B(总)/ 10B激活 | 阿里巴巴 |
| Gemma-4-26B 参数 | 25.2B(总)/ 4B激活 | |
| LLaMA 4.5 参数(推测) | ~405B-2T | Meta |
突触连接数 : 神经元数 : 大模型参数
1000万亿 : 860亿 : ~10万亿
关键洞察:如果只比"参数数量",10万亿参数 ≈ 人类突触连接数的1%。但如果把每个突触连接的强度变化也算作一个"参数"(而不仅仅是连接存在与否),人类大脑的"有效参数量"远超当前任何大模型。
2.2 单个神经元 vs 单个参数:信息量差多少?
生物神经元远比一个浮点数复杂:
| 特征 | 生物神经元 | 大模型参数 |
|---|---|---|
| 结构 | 1个轴突(Axon)+ 多个树突(Dendrite)+ 胞体(Soma) | 1个浮点数 |
| 内部状态 | 膜电位(Membrane Potential)、离子通道动态 | 无 |
| 可塑性 | 长时程增强(LTP)/长时程抑制(LTD) | 仅训练时可变,推理时固定 |
| 信号类型 | 脉冲发放(Spike,时间编码) | 连续值(速率编码) |
| 树突计算 | 局部非线性计算 | 无 |
| 神经调制 | 多巴胺(Dopamine)/5-羟色胺(Serotonin)等化学调制 | 无 |
| 基因表达 | 活动依赖的基因调控 | 无 |
生物神经元信息量估算:
- 单个突触连接 ≈ 4-5 bit(比特,信息量最小单位)
(来源:Bartol et al., 2015, eLife)
- 单个神经元平均 ~7000 个突触
- 单个神经元可携带 ≈ 7000 × 5 = 35000 bit ≈ 4.3 KB
大模型单个参数信息量:
- FP16 = 16 bit ≈ 2 Byte(字节)
- 参数间信息高度冗余(存在大量低秩结构,即信息可以被压缩)
信息量差距:单个神经元 ≈ 单个参数的 ~2000 倍
📖 来源:Bartol et al., “Nanoconnectomic upper bound on the variability of synaptic plasticity”, eLife, 2015
(中文:巴托尔等,《纳米连接组学对突触可塑性变异性的上界估计》,《eLife》期刊,2015)
2.3 大模型要追上生物大脑,需要什么改进?
| 改进方向 | 当前状态 | 生物参照 | 中外代表性研究 |
|---|---|---|---|
| 稀疏激活(Sparse Activation) | MoE已部分实现 | 大脑仅1-2%神经元同时活跃 | DeepSeekMoE(中);Google MoE/Switch Transformer(美) |
| 动态路由(Dynamic Routing) | 硬路由/软路由 | 神经调制灵活调控 | 清华/智谱路由策略(中);Google BASE Layers(美) |
| 时间编码(Temporal Coding) | 无(仅连续值) | 脉冲神经网络(SNN) | 北大/浙大脑启发计算(中);Intel Loihi 2、IBM NorthPole(美) |
| 局部学习规则 | 反向传播(全局) | 赫布学习(Hebb,局部) | 中科院自动化所(中);DeepMind Forward-Forward(美) |
| 树突计算(Dendritic Computation) | 无 | 非线性树突整合 | 尚未有大规模突破 |
| 神经调制(Neuromodulation) | 无 | 多巴胺/5-HT信号 | 中科院神经所(中);MIT/Harvard神经AI联合(美) |
📖 来源:
3. 🌌 向量空间——万维语义宇宙
3.1 什么是向量空间?
把每个词映射到一个高维空间中的一个点,这就是词嵌入(Word Embedding,又称词向量)。
例:在二维空间中(实际是万维)
"国王" ────────→ [0.90, 0.80]
"王后" ────────→ [0.85, 0.75]
"男人" ────────→ [0.70, 0.50]
"女人" ────────→ [0.65, 0.45]
经典语义关系:国王 - 男人 + 女人 ≈ 王后
即:king - man + woman ≈ queen
这个关系最早由Google的研究员Tomas Mikolov在2013年发现(著名的Word2Vec论文),它证明了向量不仅能表示词,还能编码语义关系——向量的方向就是语义,向量的加减就是语义运算。
3.2 当前大模型的向量空间为什么有上万维?
| 模型 | 隐藏维度 d /总参数 | 注意力头数 | 每头维度 d_k | 发布方 |
|---|---|---|---|---|
| GPT-5.5 (推测) | ~16384 | ~128 | ~128 | OpenAI |
| Claude Opus 4.7 (推测) | ~12288 | ~96 | ~128 | Anthropic |
| Gemini 3.1 Ultra (推测) | ~16384 | ~128 | ~128 | Google DeepMind |
| DeepSeek-V4 | ~8192 | ~128 | ~128 | 深度求索 |
| 智谱GLM-5.2 | 744B总参/MoE | DSA注意力 | — | 智谱AI |
| Kimi-K2.6 | ~1T总参/MoE | 优化注意力 | — | 月之暗面 |
| 通义千问Qwen3.5.5-122B | 122B总参/MoE | GQA | — | 阿里巴巴 |
| LLaMA 4.5-405B (推测) | ~8192 | ~64 | ~128 | Meta |
| Gemma-4-26B-A4B | 25.2B/MoE | GQA | — |
为什么需要上万维?
-
语义分辨力:人类语言有数百万概念,低维空间无法让每个概念占据独一无二的位置。就像一张纸(2维)只能画有限多的不重叠的点,但一个立方体(3维)可以装更多。
-
关系编码:高维空间中,向量之间的角度和距离自然编码了语义关系。相似概念的向量夹角小(余弦相似度高),不相关概念的向量接近正交。
-
组合性:复杂概念 = 简单概念的高维组合。如"蓝色的汽车"≈"蓝色"向量+"汽车"向量的组合。
-
容量定理(Cover’s Theorem, 1965):d维空间可以容纳约 e^d(e的d次方)个线性可分的类别。也就是说维度翻倍,可表示的概念数是之前的指数的指数倍。
3.3 向量空间如何与参数配合?
输入文本:"芯片设计很有趣"
│
▼
┌──────────────┐
│ 分词器 │ 分词为 ["芯片","设计","很","有趣"]
│ (Tokenizer) │
└─────┬────────┘
│ 查词嵌入表
▼
┌────────────────────────┐
│ 嵌入层(Embedding) │ 每个词 → d维向量
│ 参数: 词表大小 × d │ 这是模型中最大的矩阵之一
└─────┬──────────────────┘
│ 加位置编码(RoPE旋转位置编码)
▼
┌────────────────────────┐
│ Transformer层 ×N │ 向量在层间流动、变换
│ - 注意力层: 向量间交互 │ 参数控制变换的方式
│ - 前馈网络层: 逐元素变换 │
└─────┬──────────────────┘
│
▼
┌────────────────────────┐
│ 输出头(LM Head) │ d维向量 → 词表大小维概率
│ 参数: d × 词表大小 │ 预测下一个词
└────────────────────────┘
参数是规则,向量是数据。 参数决定向量如何变换,向量承载具体语义信息。
3.4 向量空间如何提高生成效率和准确度?
| 技术 | 中文说明 | 原理 | 效果 |
|---|---|---|---|
| KV Cache | 键值缓存 | 缓存已计算的Key/Value向量 | 推理速度提升3-5倍 |
| Flash Attention | 闪存注意力 | 优化的注意力计算核心算法 | 训练速度提升2-3倍 |
| 投机解码 | Speculative Decoding | 小模型猜、大模型验 | 推理速度提升2-4倍 |
| 量化(INT8/INT4) | Quantization | 降低向量精度 | 推理显存减半,速度翻倍 |
| 向量数据库(RAG) | 检索增强生成 | 外部知识编码为向量注入 | 减少幻觉,提高事实准确度 |
📖 来源:
- Dao et al., “FlashAttention: Fast and Memory-Efficient Exact Attention”, NeurIPS 2022. arXiv:2205.14135
(中文:道等,《闪存注意力:快速且内存高效的精确注意力》,NeurIPS 2022)- Leviathan et al., “Fast Inference from Transformers via Speculative Decoding”, ICML 2023. arXiv:2302.01318
(中文:利维坦等,《通过投机解码加速变换器推理》,ICML 2023)
4. 🔓 训练后参数锁死了吗——动态学习新知识
4.1 基础模型:训练后确实"锁死"
预训练(Pre-training)完成后,模型的参数被冻结(Freeze,即不再改变)。推理(Inference,即使用模型回答问题)时参数固定不动——这就是为什么大模型不知道训练截止日期之后发生的事情。
4.2 如何不重新训练就能学习新知识?
| 方法 | 核心思想 | 参数变动量 | 中文说明 |
|---|---|---|---|
| LoRA | 冻结原权重,插入低秩矩阵ΔW=AB | 0.1%-1% | 低秩适配(Low-Rank Adaptation) |
| QLoRA | 量化原权重+LoRA | 0.1% | 量化低秩适配 |
| Adapter | 插入小型适配器层 | 1%-5% | 适配器方法 |
| 前缀微调 | 学习虚拟前缀向量 | <0.1% | Prefix Tuning |
| RAG | 检索外部知识注入上下文 | 0% | 检索增强生成(Retrieval-Augmented Generation) |
| 持续预训练 | 用新数据继续训练部分层 | 可变 | Continual Pre-training |
| RLHF/DPO | 用人类偏好微调 | 小比例 | 人类反馈强化学习/直接偏好优化 |
4.3 LoRA原理图解
原始权重矩阵 W (冻结) LoRA增量 ΔW = A × B
┌──────────────┐ ┌────┐ ┌──────────┐
│ │ │ │ │ │
│ d × d │ + │d×r │ │ r×d │ (r << d)
│ (冻结) │ │ │ │ │
│ │ │ │ │ │
└──────────────┘ └────┘ └──────────┘
参数量: d² 参数量: 2×d×r
例如:d=4096, r=8 时
原始参数量: 4096² ≈ 1678万
LoRA参数量: 2×4096×8 ≈ 6.6万
LoRA仅占原始的 0.39%!
实战应用:目前国内AI社区中,使用LoRA针对通义千问Qwen、智谱GLM等开源模型进行个性化微调,是个人开发者和中小企业的首选方案。阿里云魔搭社区(ModelScope)上有大量开源的LoRA微调模型。
4.4 灾难性遗忘——持续学习的最大敌人
当你用新知识微调模型时,旧知识会被"冲掉"——这就是灾难性遗忘(Catastrophic Forgetting)。
训练前:模型知道 A、B、C、D、E
微调新知识F后:模型知道 A'、B'、C'、D'、F
↑ 原来的E被冲掉了!
| 对抗遗忘的方法 | 中文说明 | 机制 |
|---|---|---|
| EWC | 弹性权重巩固 | 限制重要参数的变化幅度 |
| 渐进式神经网络 | Progressive Networks | 新任务新增列,不修改旧参数 |
| LoRA + 正交约束 | Orthogonal Constraint | 新LoRA矩阵与旧矩阵正交,互不干扰 |
| 回放(Replay) | Experience Replay | 混合少量旧数据一起训练 |
| SD-LoRA | 方向-幅度分离 | 分离方向和幅度,仅调幅度 |
📖 来源:
- Hu et al., “LoRA: Low-Rank Adaptation of Large Language Models”, ICLR 2022. arXiv:2106.09685
(中文:胡等,《LoRA:大语言模型的低秩适配》,ICLR 2022)- Dettmers et al., “QLoRA: Efficient Finetuning of Quantized LLMs”, NeurIPS 2023. arXiv:2305.14314
(中文:德特默斯等,《QLoRA:量化大语言模型的高效微调》,NeurIPS 2023)
5. 🌍 全球持续训练与动态更新——谁在做什么
5.1 主要玩家和技术路线
| 公司/机构 | 国别 | 方法 | 最新进展(截至2026年6月) |
|---|---|---|---|
| OpenAI | 美国 | RLHF + 持续预训练 + o系列推理 | GPT-5.5;o系列推理模型持续迭代 |
| Google DeepMind | 美国 | Gemini持续预训练 + Titans记忆架构 | Gemini 3.1 Ultra;Titans打破无状态限制 |
| Anthropic | 美国 | Constitutional AI + 持续对齐 | Claude Opus 4.7;Auto-Memory记忆系统 |
| 深度求索(DeepSeek) | 中国 | MoE(混合专家)+ GRPO强化学习 + 持续迭代 | DeepSeek V4系列(V4-Flash免费),1M上下文,开源 |
| 智谱AI(GLM) | 中国 | GLM系列持续预训练 + DSA注意力 + Agent能力 | GLM-5.2(744B总参/40B激活),SWE-bench Pro 62.1%,超越GPT-5.5 |
| 阿里巴巴(通义千问) | 中国 | Qwen系列持续预训练 + MoE + 多模态 | Qwen3.5.5-122B-A10B,极高效(激活比8.2%) |
| 月之暗面(Kimi) | 中国 | 长上下文 + Agent群体协作 | Kimi-K2.6(1T总参/32B激活),Agent Swarm多模态 |
| 字节跳动(豆包) | 中国 | 豆包大模型 + 强化学习记忆优化 | 日均调用120万亿,国内市场份额主导 |
| MiniMax | 中国 | 多模态MoE + 百万级上下文 | MiniMax-M2.5,2026年全球调用量反超,推理效率领先 |
| Meta | 美国 | LLaMA系列开源 + 持续训练 | LLaMA 4.5系列 |
| 百度(文心) | 中国 | 文心系列持续预训练 | ERNIE 5.0系列,千帆平台 |
| 百川智能 | 中国 | 百川系列持续预训练 | 百川4系列,开源 |
| 阶跃星辰 | 中国 | 多模态+Agent | 万亿参数MoE模型 |
5.2 最前沿的突破
深度求索 DeepSeek - GRPO强化学习(2025)
用纯强化学习(不需要人工标注数据)训练推理能力:
- 核心思想:分组相对策略优化(Group Relative Policy Optimization, GRPO)
- 论文:DeepSeek-R1
- 意义:证明强化学习可以自发涌现推理能力
智谱 GLM-5.2 - DSA注意力+Agent编码(2026)
- 核心思想:动态稀疏注意力(Dynamic Sparse Attention, DSA)+ MoE架构
- GLM-5.2在SWE-bench Pro编码基准上以62.1%超越GPT-5.5,成本仅为后者1/6
- 744B总参数,40B激活参数,1M上下文窗口
月之暗面 Kimi-K2.6 - Agent群体协作(2026)
- 核心思想:Agent Swarm——将复杂任务拆解为多个并行子任务,由一组AI智能体协作完成
- 代表能力:长程代码任务中多Agent协同,多模态原生集成
Google DeepMind - Titans架构(NeurIPS 2025)
- 核心思想:在Transformer层内加入可学习的记忆模块,模型可以在推理时动态更新内部记忆
- 意义:打破了传统Transformer的"无状态"假设,向生物大脑的海马体(Hippocampus)记忆机制靠近
📖 来源:
- DeepSeek-AI, “DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning”, 2025. arXiv:2501.12948
(中文:深度求索AI,《DeepSeek-R1:通过强化学习激发大语言模型的推理能力》,2025)- 记忆张量MemOS开源框架. GitHub
6. 📜 "注意力就是一切"的诞生——一篇论文改写AI历史
6.1 前Transformer时代:RNN和CNN的困境
2017年之前,自然语言处理(NLP, Natural Language Processing)领域的两大主流架构:
| 架构 | 优势 | 致命缺陷 |
|---|---|---|
| RNN/LSTM(循环神经网络/长短期记忆网络) | 能处理变长序列 | 必须逐词计算,无法并行;长距离依赖衰减 |
| CNN(卷积神经网络) | 可并行计算 | 只能捕捉局部窗口,长距离依赖需堆很多层 |
RNN的计算:必须等待前一步完成
x₁ → h₁ → h₂ → h₃ → ... → hₙ
↑ 每步依赖上一步,无法并行!
CNN的计算:只能看到局部窗口
x₁ x₂ x₃ x₄ x₅
[───] ← 第1层只看3个相邻词
[───────────] ← 需要堆叠多层才能看远
6.2 发明者是谁?
2017年论文 “Attention Is All You Need” (《注意力就是你所需的一切》)的八位作者(后被AI界封为"Transformer八子"):
| 作者 | 当时角色 | 后来去向 |
|---|---|---|
| Ashish Vaswani(阿希什·瓦斯瓦尼) | 第一作者,Google Brain | 创办Adept AI |
| Noam Shazeer(诺姆·沙泽尔) | 核心架构设计 | Character.AI → 回Google → 2026年转投OpenAI |
| Niki Parmar(尼基·帕尔马) | Google Brain | 与Vaswani共创Adept AI |
| Jakob Uszkoreit(雅各布·乌兹科雷特) | Google Research | 创办Inceptive |
| Llion Jones(莱昂·琼斯) | Google Research | 在日本创办Sakana AI |
| Aidan Gomez(艾丹·戈麦斯) | Google Brain实习生 | 创办Cohere(估值超50亿美元) |
| Łukasz Kaiser(卢卡什·凯泽) | Google Brain | 加入OpenAI |
| Illia Polosukhin(伊利亚·波洛苏欣) | Google Research | 创办NEAR Protocol |
📖 来源:Vaswani et al., 2017
(中文:瓦斯瓦尼等,《注意力就是你所需的一切》,2017)
6.3 他们是如何察觉到这个方向的?
洞察一:注意力机制已有基础
2014-2015年,Bahdanau等人在机器翻译中提出了注意力机制(Neural Machine Translation by Jointly Learning to Align and Translate, Bahdanau et al., ICLR 2015)。它允许解码器"关注"输入序列的任意位置,而不仅看最后一个隐藏状态。
📖 来源:Bahdanau et al., “Neural Machine Translation by Jointly Learning to Align and Translate”, ICLR 2015. arXiv:1409.0473
(中文:巴达诺等,《通过联合学习对齐与翻译的神经机器翻译》,ICLR 2015)
洞察二:RNN的顺序依赖是瓶颈
Google团队在训练大规模翻译模型时发现:
- RNN必须逐步计算,GPU(图形处理器)利用率极低
- 长句子翻译质量急剧下降
- 硬件加速对RNN帮助有限
洞察三:也许RNN根本不需要?
Shazeer和Uszkoreit等人提出了一个大胆假设:
如果注意力机制已经能让模型直接"看到"序列中任意位置的信息,那RNN的顺序编码还必要吗?
验证过程:他们构建了一个纯注意力架构:
- 去掉所有递归结构(Recurrence)
- 用**自注意力(Self-Attention)**替代RNN
- 加入多头注意力(Multi-Head Attention),让模型同时关注多种关系
- 加入位置编码(Positional Encoding),补偿丢失的顺序信息
6.4 那篇开天辟地的论文
论文标题 “Attention Is All You Need” 直译是"你只需要注意力"。
关键成果:
- 在WMT 2014英德翻译任务上,BLEU分数(机器翻译质量评分)比当时最好的模型高2.0+
- 训练速度比当时最优模型快一个数量级(约10倍)
- 模型完全可并行,GPU利用率大幅提高
论文发表时的结果对比:
┌──────────────────────┬──────────┬──────────┐
│ 模型 │ 英→德 │ 英→法 │
│ │ BLEU分 │ BLEU分 │
├──────────────────────┼──────────┼──────────┤
│ 之前最优(集成) │ 24.61 │ 39.92 │
│ Transformer(big) │ 28.40 │ 41.80 │
│ 提升 │ +3.79 │ +1.88 │
└──────────────────────┴──────────┴──────────┘
训练成本:仅为之前最优模型的1/4
6.5 别人如何第一时间判断方向正确?
OpenAI的反应:
2017年底,OpenAI的Ilya Sutskever(伊利亚·苏茨克维)等人立即意识到Transformer的潜力。2018年6月,OpenAI发布了GPT-1(生成式预训练变换器第一代)——第一个用Transformer解码器做语言模型的尝试。虽然GPT-1效果一般,但它验证了方向:Transformer + 大规模预训练 = 强语言能力。
Google内部的反应:
Google自己的BERT团队(Devlin et al., 2018)走了另一条路——用Transformer编码器做双向预训练。BERT在11项NLP基准上全面刷新纪录,进一步验证了Transformer的通用性。
学术界的验证潮:
| 时间 | 事件 | 验证了什么 | 中文说明 |
|---|---|---|---|
| 2017.06 | "注意力就是你所需的一切"论文发表 | 翻译任务达到最优(SOTA) | 奠基论文 |
| 2018.06 | GPT-1发布 | 解码器可做语言模型 | 首个GPT变体 |
| 2018.10 | BERT发布 | 编码器可做双向理解 | 双向变换器 |
| 2019.02 | GPT-2发布 | 规模扩大后涌现零样本能力 | 参数增至15亿 |
| 2020.06 | GPT-3发布 | 1750亿参数涌现少样本能力 | 缩放定律确立 |
| 2023.03 | GPT-4发布 | 多模态+推理+1.8万亿参数(推测) | 全面超越人类基准 |
| 2024.12 | DeepSeek-V3发布 | MoE架构671B总参数,开源 | 中国开源模型里程碑 |
| 2025.01 | DeepSeek-R1发布 | 纯RL训练推理能力涌现 | 强化学习新范式 |
| 2026.Q1 | DeepSeek V4 + Kimi K2.6 | 1M上下文+Agent群体协作 | 中国模型局部领先 |
6.6 发明者如何断定方向正确性?
Noam Shazeer后来在访谈中提到,他们断定方向正确的关键信号是:
- 训练效率:相同数据量下训练速度快了一个数量级
- 可扩展性:模型越大效果越好,没有饱和迹象
- 通用性:同一个架构在翻译、摘要、问答上都有效
💡 科学技术史视角:Transformer的发明不是凭空而来,而是站在了注意力机制(2014-2015)、并行计算硬件(GPU/TPU)、大规模文本数据积累三块基石之上。八位作者敏锐地意识到——RNN的顺序依赖是并行化的最大瓶颈,而注意力机制天然适合并行。这种"去掉瓶颈、保留核心"的思路,是科研史上经典的范式转变(Paradigm Shift,库恩《科学革命的结构》)。
7. 👧🏻 个体记忆的参数化——把"你"编码进模型
7.1 核心问题
每个人的经历、语言、偏好、技能都不同——这些差异能否用大模型的参数+向量方式编码?当前可以部分做到,但技术仍不成熟,是AI界最前沿方向之一。
7.2 行业内的术语
| 术语 | 英文 | 侧重 |
|---|---|---|
| 个性化大模型 | Personalized LLM | 针对个人定制的大模型 |
| 持久记忆 | Persistent Memory | 跨会话、不丢失的记忆 |
| 持续学习 | Continual Learning | 不停学习新知识而不遗忘旧知识 |
| 个人AI/数字孪生 | Personal AI / AI Twin | 一个"像你"的AI副本 |
| 具身记忆 | Embodied Memory | 机器人的物理世界记忆 |
| 终身学习 | Lifelong Learning | 永不停止的学习 |
| 记忆工程 | Memory Engineering | 2026年新热门方向 |
7.3 把个人交互记录参数化存储可行吗?
当前有三条路线:
路线1:RAG + 向量数据库
个人数据 → 文本切片 → 词嵌入 → 向量库 → 检索时注入上下文
优点:简单、可控、可解释
缺点:不是真正的"理解",只是检索
代表:大多数当前产品
路线2:LoRA/Adapter微调
个人数据 → 构建训练集 → LoRA微调 → 个人化适配器
优点:参数级编码,模型真正"学到了"你的特点
缺点:训练成本高、灾难性遗忘风险
代表:阿里ModelScope社区的个性化微调生态
路线3:混合架构(2026年最前沿)
核心模型(冻结) + 个人参数(LoRA) + 个人向量库(RAG) + 记忆管理器
优点:结合两者优势
缺点:系统复杂,工程难度大
代表:记忆张量MemOS、字节跳动记忆增强方案
7.4 具身智能的参数化记忆
对一款机器人或自动驾驶汽车:
| 场景 | 记忆内容 | 参数化方案 | 中外代表 |
|---|---|---|---|
| 具身机器人 | 空间地图、动作序列、物体交互 | 世界模型(视频预测) + 动作嵌入 | 宇树科技、银河通用(中);Boston Dynamics、Figure AI(美) |
| 自动驾驶 | 路线、路况处置记录 | 场景嵌入 + 策略LoRA | 百度Apollo、华为、小鹏(中);Tesla FSD、Waymo(美) |
| 虚拟个体 | 虚假经历、个性设定 | 全参数微调/LoRA + 性格向量 | 字节豆包、智谱清言(中);Character.AI(美) |
7.5 虚假经历能创造个性吗?
理论上可以,但需要大量经历数据。 "虚假经历"不是简单设定性格标签,而是用该个体的对话数据、阅读记录、决策历史构建训练集,通过参数化编码塑造行为模式。
当前国内外的实验如下:
| 产品/项目 | 国别 | 实现方式 | 效果 |
|---|---|---|---|
| 智谱清言(GLM-5.2) | 中国 | GLM+DSA注意力+Agent能力 | 编码能力超越GPT-5.5,国内个性AI旗舰 |
| 字节豆包 | 中国 | 多轮记忆+偏好编码+RL优化 | 日均调用120万亿,超大规模个性化 |
| Character.AI | 美国 | 提示词+角色数据微调 | 角色扮演领域最成熟 |
| 星野/彩云小梦 | 中国 | 个性化对话微调 | 国内AI角色扮演领先 |
| 记忆张量MemOS | 中国 | 参数化记忆+分层管理 | 记忆可独立打包/下载/安装 |
| MiniMax-M2.5 | 中国 | MoE+多模态个性编码 | 2026推理效率全球领先 |
| 阶跃星辰 | 中国 | 万亿MoE+个性编码 | 多模态个性AI |
记忆交易市场:记忆张量计划在2026-2027年上线"记忆交易市场":开发者将企业知识封装成"记忆体"上架,用户按需下载安装——类似于应用商店的标准化记忆分发模式。
8. 🏛️ 混合专家MoE——全知模型下的专精个体
8.1 混合专家(MoE, Mixture of Experts)核心原理
传统密集(Dense)模型:每个词激活所有参数
┌─────────────────────────────────────┐
│ 词 → [全部参数都参与计算] → 输出 │
│ 7B参数 → 7B计算量 │
└─────────────────────────────────────┘
MoE模型:每个词只激活少数专家
┌─────────────────────────────────────┐
│ 词 → Router → [专家1] ─┐ │
│ (路由器) → [专家5] ─┤→ 输出 │
│ → 跳过其他专家│ │
│ 671B总参数 → 37B激活参数 │
└─────────────────────────────────────┘
8.2 MoE的关键组件
| 组件 | 中文说明 | 作用 | 典型配置 |
|---|---|---|---|
| 专家网络(Experts) | 子网络 | 各自学习不同领域知识 | 8-256个前馈网络 |
| 门控网络(Router/Gate) | 路由器 | 决定每个词去哪个专家 | 轻量线性层 |
| Top-K选择 | 前K个专家 | 每次只激活K个专家 | K=2, 8 |
| 负载均衡损失 | Auxiliary Loss | 防止所有词涌向同一个专家 | 辅助损失函数 |
8.3 不同专家是否相当于有专精的个体?
部分是,但不是完全的"个体":
| 对比维度 | MoE专家 | 人类专家 |
|---|---|---|
| 专精领域 | 通过训练自动分化 | 主动选择学习 |
| 个性/记忆 | 无独立记忆 | 有独立人生经历 |
| 知识共享 | 共享注意力层等基础结构 | 有独立认知框架 |
| 自主性 | 被动被路由选择 | 主动选择任务 |
更准确的类比:MoE专家更像一个"全知大脑"中的不同功能区——如同视觉皮层和语言皮层(布罗卡区)分工不同,但共享同一个大脑。
8.4 代表性MoE模型
| 模型 | 总参数 | 激活参数 | 激活比 | 专家数 | Top-K | 发布方 |
|---|---|---|---|---|---|---|
| Kimi-K2.6 | ~1T | ~32B | ~3.2% | 未公开 | 未公开 | 月之暗面 |
| 智谱GLM-5.2 | 744B | 40B | 5.4% | 未公开 | 未公开 | 智谱AI |
| DeepSeek-V4-Flash | 284B | 13B | 4.6% | ~256 | 8 | 深度求索 |
| DeepSeek-V3 | 671B | 37B | 5.5% | 256 | 8 | 深度求索 |
| 通义千问Qwen3.5.5-122B | 122B | 10B | 8.2% | 未公开 | 未公开 | 阿里巴巴 |
| Gemma-4-26B-A4B | 25.2B | 4B | 15.9% | 未公开 | 未公开 | |
| 阶跃星辰Step-2 | ~1T | 未公开 | — | 未公开 | 未公开 | 阶跃星辰 |
| MiniMax-M2.5 | 未公开 | 未公开 | — | 未公开 | 未公开 | MiniMax |
| GPT-5.5 (闭源推测) | 未公开 | 未公开 | — | 推测MoE | 未公开 | OpenAI |
📖 来源:
- DeepSeek-AI, “DeepSeek-V3 Technical Report”, 2024. arXiv:2412.19437
(中文:深度求索AI,《DeepSeek-V3技术报告》,2024)- DeepSeek-AI, “DeepSeekMoE: Towards Ultimate Expert Specialization”, 2024. arXiv:2401.06066
(中文:深度求索AI,《DeepSeekMoE:走向极致的专家专业化》,2024)
9. 💾 个人永久记忆赛道——键值对 vs 参数+向量
9.1 两条技术路线对比
| 维度 | 键值对/数据库路线 | 参数+向量路线 |
|---|---|---|
| 存储方式 | 结构化文本、JSON、Markdown | 模型权重(LoRA) + 向量嵌入 |
| 检索方式 | 精确匹配/全文检索 | 语义相似度检索 |
| 理解程度 | 原文存储,不理解内容 | 高维压缩,内化了语义 |
| 可解释性 | 高(直接看原文) | 低(参数是黑匣子) |
| 更新灵活性 | 容易增删改 | 困难(需重新训练/微调) |
| 代表产品 | Claude MEMORY.md | 记忆张量MemOS参数化记忆 |
9.2 主要公司和产品(2026年最新)
| 公司/产品 | 国别 | 技术路线 | 关键特点 |
|---|---|---|---|
| Google(Gemini Personal Intelligence) | 美国 | 混合:跨应用数据+语义理解+Titans记忆架构 | Titans在Transformer内植入可学习记忆;可调取Gmail/Photos/搜索记录 |
| OpenAI(ChatGPT Memory) | 美国 | 混合:云端向量库+摘要 | 全自动黑盒加载;可引用所有历史对话;GPT-5.5整合深度记忆 |
| Anthropic(Claude Auto-Memory) | 美国 | 键值对:本地MEMORY.md | 用户可控、按需触发、透明;NeurIPS 2025可解释性研究 |
| 字节跳动(豆包) | 中国 | 混合:RL强化学习优化记忆 | 日均调用120万亿;全球最大规模记忆优化实践 |
| 记忆张量(MemTensor/MemOS) | 中国 | 参数+向量混合 | 全球首个记忆操作系统;记忆分层管理(参数化+激活+明文);天使轮近亿人民币 |
| 阿里巴巴(通义千问) | 中国 | 混合:跨应用数据+语义理解 | Qwen3.5.5记忆能力增强;魔搭社区生态 |
| 智谱AI(清言) | 中国 | 混合:GLM-5.2+对话记忆 | 编码+Agent能力领先,配合上下文记忆 |
| 月之暗面(Kimi) | 中国 | 长上下文+记忆管理 | K2.6超长上下文+Agent Swarm协作 |
| 百度(文心一言) | 中国 | 混合:千帆平台+记忆API | ERNIE 5.0系列 |
| Mem0 | 美国/印度 | 向量优先:API化记忆层 | AWS Agent SDK独家记忆提供商;GitHub 4.1万星;A轮2400万美元 |
| Letta(原MemGPT) | 美国 | 混合:主上下文+外部存储 | UC Berkeley孵化;编程Agent记忆管理流水线 |
9.3 记忆的遗忘机制
人脑的记忆不是无限增长的——有了新经历会慢慢淡化最久远最无用的经历。
| 方法 | 英文说明 | 机制 | 代表 |
|---|---|---|---|
| 滑动窗口 | Sliding Window | 只保留最近N条记忆 | 大多数对话系统 |
| 重要性评分 | Importance Scoring | 自动评估记忆重要性,删除低分项 | ChatGPT Memory |
| 压缩摘要 | Compression/Summarization | 将多条旧记忆压缩为一条摘要 | MemGPT/Letta |
| 主动遗忘 | Active Forgetting | 基于时间衰减和访问频率 | A-MEM |
| 层级记忆 | Hierarchical Memory | 短期→中期→长期,逐级压缩 | MemOS三层记忆立方体(MemCube) |
A-MEM(2025-2026突破性方案):
受德国社会学家卢曼的卡片盒笔记法(Zettelkasten)启发,将记忆分解为原子化笔记,自动建立笔记间的动态链接:
- 多跳推理F1值提升近3倍(F1是精确率与召回率的调和平均)
- 词元(Token)消耗降低85-93%
记忆张量MemOS - 记忆分层机制(2026年最完整方案):
记忆张量CTO李志宇博士在2025年QCon全球软件开发大会上提出的三层记忆框架:
- 参数化记忆(隐性记忆):通过继续训练固化在模型参数中——类似骑自行车的技能,一旦学会不再需要刻意思考。写入慢(需训练)、读取快(直接推理)。
- 激活记忆(显性记忆):以KV Cache形式暂存在GPU显存——类似你刚才看过的书页,随时可快速回顾。读写都很快但容量有限。
- 明文记忆(外部记忆):存储在外部向量库中——类似开卷考试时翻书查找。写入快(直接存入)、读取慢(需要检索+编码)。
这三种记忆类型的组合调度,是目前最接近人脑"海马体+新皮层"双记忆系统的人工实现。
📖 来源:
- 李志宇, “从上下文到长期记忆:大模型记忆工程的架构设计与实践”, QCon 2025. InfoQ
- A-MEM, “Agentic Memory for LLM Agents”, 2025. arXiv:2502.12110
(中文:《智能体记忆:大语言模型智能体的记忆系统》,2025)
10. ✏️ 记忆的动态增删改——参数级操控的可行手段
10.1 当前可行手段
| 手段 | 增 | 删 | 改 | 技术成熟度 | 中文说明 |
|---|---|---|---|---|---|
| RAG(检索增强生成) | ✅ 加文档 | ✅ 删文档 | ✅ 改文档 | 成熟 | 外部知识注入 |
| LoRA适配器 | ✅ 新训练 | ⚠️ 卸载适配器 | ⚠️ 重新训练 | 成熟 | 低秩适配微调 |
| 知识编辑(ROME/MEMIT) | ✅ | ⚠️ 部分 | ✅ | 实验阶段 | 直接修改模型知识 |
| 提示工程(Prompt Engineering) | ✅ | ✅ | ✅ | 成熟但脆弱 | 通过提示词控制 |
| 持续预训练 | ✅ | ❌ | ⚠️ | 成熟但昂贵 | 用新数据继续训练 |
| 记忆管理框架(MemGPT/MemOS) | ✅ | ✅ | ✅ | 发展中 | 专门的记忆管理系统 |
10.2 知识编辑——直接修改模型中的特定知识
ROME(Rank-One Model Editing,秩一模型编辑)和MEMIT(Mass-Editing Memory in a Transformer,变换器中的批量记忆编辑)是当前最前沿的"参数级记忆手术"方法:
原理:模型中的知识存储在FFN层的特定"键-值"对中
FFN可以看作一个联想记忆:
Key向量(触发词) → Value向量(关联知识)
修改过程:
1. 定位:找到存储目标知识的FFN层和神经元
2. 计算:用新知识替换对应的Value向量
3. 验证:确认修改生效且未破坏其他知识
| 方法 | 可同时编辑条数 | 副作用控制 | 中文说明 |
|---|---|---|---|
| ROME | 1条 | 较好 | 秩一模型编辑 |
| MEMIT | 数千条 | 中等 | 批量变换器记忆编辑 |
| PMET | 数百条 | 较好 | 精确模型编辑工具 |
📖 来源:
- Meng et al., “Locating and Editing Factual Associations in GPT”, NeurIPS 2022. arXiv:2202.05262
(中文:孟等,《定位与编辑GPT中的事实性关联》,NeurIPS 2022)- Meng et al., “Mass-Editing Memory in a Transformer”, ICLR 2023. arXiv:2210.07529
(中文:孟等,《变换器中的批量记忆编辑》,ICLR 2023)
10.3 在这个方向做得好的公司
| 公司/团队 | 国别 | 方向 | 2026年进展 |
|---|---|---|---|
| Google DeepMind | 美国 | Titans架构内置记忆 | NeurIPS 2025;在Transformer内植入可学习记忆模块 |
| OpenAI | 美国 | 知识编辑+大规模记忆 | GPT-5.5整合深度记忆;RLHF后训练优化 |
| 字节跳动 | 中国 | 强化学习驱动的记忆管理 | 全球最大规模记忆优化实践;RL优化短期/长期记忆协同 |
| 记忆张量(MemTensor) | 中国 | 记忆操作系统(增删改全流程) | MemOS 1.0发布;记忆可独立打包、下载、安装 |
| Anthropic | 美国 | 可解释记忆系统 | Claude Opus 4.7透明可编辑记忆 |
| 深度求索 | 中国 | 后训练+持续优化 | DeepSeek V4;GRPO持续优化 |
| 阿里巴巴(通义) | 中国 | 多模态记忆+跨应用记忆 | Qwen3.5系列增强 |
| 智谱AI | 中国 | GLM持续学习+记忆增强 | GLM-5.2记忆框架 |
| Mem0 | 美国/印度 | API化记忆增删改 | 生产级API,季度调用1.86亿次 |
| 哈佛团队(SD-LoRA) | 美国 | 低秩持续学习 | ICLR 2025 Oral |
11. 🤖 强人工智能如何实现——持续运行的自主Agent
11.1 核心挑战
一个真正的强人工智能(AGI)智能体(Agent)需要:
| 能力 | 当前状态 | 缺失原因 |
|---|---|---|
| 24小时持续运行 | ✅ 可实现 | 工程问题,非科学问题 |
| 持续感知所有输入 | ⚠️ 有限 | 上下文窗口限制(尽管已扩展至1M token) |
| 保持主动/进取心 | ❌ 缺失 | 没有内在驱动力机制 |
| 持续学习 | ⚠️ 部分 | 灾难性遗忘 |
| 自主目标设定 | ❌ 缺失 | 缺少价值系统和内驱力模型 |
11.2 当前最有可能的方向
方向一:世界模型 + 强化学习
Meta AI首席科学家Yann LeCun(杨立昆)提出的JEPA(联合嵌入预测架构,Joint Embedding Predictive Architecture):
- 核心思想:AI需要一个"世界模型"来预测行动后果
- 通过预测误差产生好奇心(内在驱动力)
- 来源:LeCun, 2022, “A Path Towards Autonomous Machine Intelligence”
- (中文:杨立昆,《通向自主机器智能之路》,2022)
方向二:认知架构 + 长期记忆(中国路线)
北京通用人工智能研究院(BIGAI)朱松纯团队提出的"乌鸦范式":
- 核心思想:从"大数据小任务"的鹦鹉范式转向"小数据大任务"的乌鸦范式
- 智能体需具备自主感知、认知、推理、学习和执行能力
- 清华大学张钹院士(91岁)在2026年AGI Next峰会上指出:AGI必须具备多模态理解、在线学习、可验证推理等五项关键能力
方向三:推理时计算 + 测试时思考(Test-Time Compute)
OpenAI o系列和DeepSeek R1的方向:
- 核心思想:智能不仅是参数数量的函数,也是思考时间的函数
- 让模型在输出前进行长时间内部推理(思维链)
- DeepSeek-R1用纯强化学习(GRPO)自发涌现了推理能力
- 来源:DeepSeek-R1
方向四:脑科学启发的持续学习
- 快慢双记忆系统(海马体+新皮层)
- 突触修剪(Synaptic Pruning)+ 赫布可塑性(Hebbian Plasticity)
- 稀疏编码(Sparse Coding)
11.3 2026年AGI Next峰会——中国AI大佬的共识与分歧
2026年1月10日,由清华大学与智谱AI联合发起的AGI Next前沿峰会在北京召开,以下是核心观点:
| 人物 | 机构 | 核心观点 |
|---|---|---|
| 张钹院士 | 清华大学 | 大模型存在指称、因果等五大根本缺失;AGI需有"可执行、可检验"的定义 |
| 唐杰 | 智谱AI | “Chat范式的竞争已经基本结束,下一步是走向做事”;核心方向是让模型具备自主扩展能力 |
| 杨植麟 | 月之暗面 | “扩展定律本质是把能源转化为智能”;优秀模型承载价值观与品味 |
| 林俊旸 | 阿里巴巴 | 打造"全能智能体";中国团队3-5年内全球领先概率约20% |
| 姚顺雨 | 腾讯(新首席AI科学家) | AI行业正经历分化:垂直整合与分层应用两种模式各走各路 |
关于如何让AI拥有真正的"进取心"和"学习心",行业内在强化学习的**内在动机(Intrinsic Motivation)**研究中找到了最有希望的方向——通过好奇心驱动(预测误差最大化)和赋能驱动(状态空间覆盖最大化)来产生自主探索行为。DeepSeek的GRPO方法证明了纯RL可自发涌现推理能力。
11.4 保持"进取心"和"学习心"的可行架构
内驱力模型的可能架构:
┌────────────────────────────────────────┐
│ 内在驱动力系统 │
│ │
│ ┌──────┐ ┌──────┐ ┌──────┐ │
│ │好奇心│ │成就感│ │安全感│ ... │
│ │预测误差│ │目标达成│ │不确定性│ │
│ └──┬───┘ └──┬───┘ └──┬───┘ │
│ │ │ │ │
│ ▼ ▼ ▼ │
│ ┌─────────────────────────┐ │
│ │ 价值函数(Value Fn) │ │
│ │ V(s) = Σwᵢ·driveᵢ │ │
│ └───────────┬─────────────┘ │
│ │ │
│ ▼ │
│ ┌─────────────────────────┐ │
│ │ 目标生成器 │ │
│ │ 选择最大化V(s)的行动 │ │
│ └─────────────────────────┘ │
└────────────────────────────────────────┘
12. 🔮 记忆恢复术——参数黑匣子的逆变换
12.1 核心难题
如果记忆以巨量参数+向量方式存储,如何将这些高维、不可直接解读的表示恢复为人类可理解的形式?
参数化记忆(不可读) 可交互形式(可读)
┌──────────────┐ ┌──────────────┐
│ W₁,W₂,...,Wₙ │ ──→ ? │ 文字/图表/图片 │
│ v₁,v₂,...,vₖ │ │ 视频/3D空间 │
└──────────────┘ └──────────────┘
12.2 现有方法
| 方法 | 输入 | 输出 | 原理 | 中文说明 |
|---|---|---|---|---|
| 探针(Probing) | 中间层向量 | 分类标签/属性 | 训练轻量分类器读取向量中的信息 | 线性探针 |
| 逆向生成 | 隐藏状态 | 文本 | 用LM Head将向量解码为文本 | 直接解码 |
| 特征可视化 | 注意力/梯度 | 热力图 | 显示模型"关注"了什么 | 可视化分析 |
| 机械可解释性 | 神经元激活 | 概念标签 | 识别每个神经元响应的语义概念 | Mechanistic Interpretability |
| 知识三元组提取 | FFN层 | (主语,关系,宾语) | 从FFN的Key-Value对中提取结构化知识 | 知识图谱提取 |
12.3 稀疏自编码器(SAE)——Anthropic的特征字典
美国AI公司Anthropic在2024年发表的突破性研究中,使用**稀疏自编码器(Sparse Autoencoder, SAE)**将中间层向量分解为可解释的"特征":
- 从一个隐藏层中提取了数百万个可解释特征
- 每个特征对应一个人类可理解的概念(如"背叛"、“咖啡”、“递归算法”)
- 2026年,Anthropic发现了171个"情绪向量"——类似喜悦、恐惧、悲伤等状态的表征
📖 来源:Anthropic, “Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet”, 2024. transformer-circuits.pub
(中文:Anthropic,《扩展单语义性:从Claude 3中提取可解释特征》,2024)
12.4 做这个方向的机构
| 机构 | 国别 | 方向 | 代表成果 |
|---|---|---|---|
| Anthropic | 美国 | 机械可解释性 | SAE特征提取;171个情绪向量 |
| OpenAI | 美国 | 知识编辑+提取 | ROME/MEMIT方法 |
| Google DeepMind | 美国 | 因果追踪 | 逐层追踪知识存储位置 |
| 清华大学 | 中国 | 知识神经元定位 | 知识在FFN中的精确定位技术 |
| 智源研究院(BAAI) | 中国 | 多模态可解释AI | 2026年在Nature发表"通用大脑"研究 |
| 北京大学 | 中国 | 神经网络可解释性 | 稀疏自编码器研究 |
| 上海AI实验室 | 中国 | 大模型可解释性 | 书生通用大模型可解释性分析 |
| Numenta | 美国 | 千脑理论 | 皮层柱的功能解释 |
13. 🧩 大模型 + 个体记忆 + 记忆可恢复——三位一体的AI
13.1 完整架构蓝图
┌───────────────────────────────────────────────────┐
│ 三位一体AI架构 │
│ │
│ ┌───────────────────────────────────────────────┐ │
│ │ Layer 1: 基础大模型(冻结/共享) │ │
│ │ - 通用知识和推理能力 │ │
│ │ - 代表:DeepSeek/Qwen/GLM等 │ │
│ │ - 中国开源模型优势:可私有化部署 │ │
│ └─────────────────────┬─────────────────────────┘ │
│ │ │
│ ┌─────────────────────┴─────────────────────────┐ │
│ │ Layer 2: 个体记忆层(参数+向量) │ │
│ │ - LoRA适配器:个人偏好/风格/知识 │ │
│ │ - 向量数据库:个人经历/文档/对话 │ │
│ │ - 知识图谱:人物关系/时间线/因果链 │ │
│ │ - 记忆管理器(MemOS):增删改+遗忘+压缩 │ │
│ └─────────────────────┬─────────────────────────┘ │
│ │ │
│ ┌─────────────────────┴─────────────────────────┐ │
│ │ Layer 3: 记忆恢复层(可解释+可交互) │ │
│ │ - 探针网络:向量→概念标签 │ │
│ │ - 逆向生成:向量→文字/图片/视频 │ │
│ │ - 特征可视化:注意力→热力图 │ │
│ │ - 交互界面:用户可查询/修改/删除记忆 │ │
│ └───────────────────────────────────────────────┘ │
└───────────────────────────────────────────────────┘
13.2 做这个方向的公司和进展(按综合能力排序)
| 公司/项目 | 国别 | Layer 1 | Layer 2 | Layer 3 | 综合进度 |
|---|---|---|---|---|---|
| OpenAI(ChatGPT) | 美国 | ★★★★★ GPT-5.5 | ★★★☆☆ 向量记忆 | ★★★☆☆ 可查看/删除 | ★★★★☆ |
| Google(Gemini) | 美国 | ★★★★★ Gemini 3.1 Ultra | ★★★★☆ Titans记忆架构 | ★★★☆☆ | ★★★★★ |
| Anthropic(Claude) | 美国 | ★★★★★ Claude Opus 4.7 | ★★★☆☆ MEMORY.md | ★★★★☆ 透明可编辑 | ★★★★☆ |
| 深度求索(DeepSeek) | 中国 | ★★★★★ V4/R1 | ★★★☆☆ 后训练优化 | ★★☆☆☆ | ★★★★☆ |
| 字节跳动(豆包) | 中国 | ★★★★☆ 豆包 | ★★★★☆ RL记忆优化 | ★★☆☆☆ | ★★★★☆ |
| 记忆张量(MemOS) | 中国 | 多模型 | ★★★★☆ 参数化+激活+明文三层 | ★★☆☆☆ 探索中 | ★★★★☆ |
| 智谱AI(清言) | 中国 | ★★★★☆ GLM-5.2 | ★★★☆☆ 对话记忆 | ★★☆☆☆ | ★★★☆☆ |
| 阿里巴巴(通义千问) | 中国 | ★★★★★ Qwen3.5 | ★★★☆☆ 记忆增强 | ★★☆☆☆ | ★★★☆☆ |
| 月之暗面(Kimi) | 中国 | ★★★★☆ K2.6 | ★★★☆☆ 长上下文 | ★★☆☆☆ | ★★★☆☆ |
13.3 当前差距与未来方向
| 缺失能力 | 当前方案 | 需要突破 |
|---|---|---|
| 真正参数级个人记忆 | LoRA微调(成本高) | 超低成本个人LoRA训练 |
| 记忆完全可解释 | SAE特征提取(学术阶段) | 实时全量特征解码 |
| 主动记忆整理 | 人工触发/A-MEM自动 | 自主"做梦"式记忆重组(智谱唐杰提的"会做梦的机器") |
| 情感记忆 | 无 | 情绪向量绑定+记忆权重 |
| 跨模态记忆 | 文本为主 | 文字+图片+语音+视频统一编码 |
| 记忆交易/共享 | MemOS计划中 | 记忆体标准化+交易市场 |
14. 📖 附录:关键术语表
| 术语 | 英文 | 简要解释 |
|---|---|---|
| 变换器架构 | Transformer | 2017年提出的神经网络架构,基于自注意力机制,是所有大模型的基础 |
| 参数 | Parameter | 模型中的可学习数值,通常为浮点数 |
| 向量 | Vector | 一组有序数字,如[0.3, -1.2, 0.8, …],用于表示语义 |
| 嵌入/词向量 | Embedding | 将文字/图片转为向量的过程 |
| 自注意力 | Self-Attention | 让序列中每个位置能"看到"所有其他位置的机制 |
| 低秩适配 | LoRA | 只训练少量参数就能微调大模型 |
| 混合专家 | MoE | 将模型拆分为多个专家子网络,按需激活 |
| 检索增强生成 | RAG | 从外部知识库检索信息注入上下文 |
| 前馈网络 | FFN | Transformer中每层的全连接部分 |
| 键值缓存 | KV Cache | 缓存注意力中的Key和Value,加速推理 |
| 灾难性遗忘 | Catastrophic Forgetting | 学习新知识时忘记旧知识的现象 |
| 稀疏自编码器 | SAE | 用于分解和解释模型内部表示 |
| 缩放定律 | Scaling Law | 模型能力随参数/数据/计算增长的规律 |
| 词元 | Token | 文本被分割后的最小处理单元,约等于一个中文字或英文子词 |
| 强化学习 | Reinforcement Learning (RL) | 通过奖励信号训练智能体的方法 |
| 人类反馈强化学习 | RLHF | 用人类偏好作为奖励信号的微调方法 |
| 分组相对策略优化 | GRPO | DeepSeek提出的纯RL训练方法,不需要人工标注 |
| 脉冲神经网络 | SNN (Spiking Neural Network) | 模仿生物神经元脉冲行为的第三代神经网络 |
| 长时程增强/抑制 | LTP/LTD | 突触连接强度长期增强或减弱的生物机制 |
| 强人工智能 | AGI | 能够在几乎所有任务上达到或超越人类水平的AI |
| 内在动机 | Intrinsic Motivation | AI自主产生探索和学习的内部驱动力 |
| 世界模型 | World Model | AI对物理世界和因果关系的内部表征 |
15. 📚 参考文献与进阶阅读
📖 阅读建议:带"⭐"的是入门推荐,带"⭐⭐"的是进阶必读,带"⭐⭐⭐"的是专业研究。所有英文论文均附带中文译名。
A. 奠基性论文(按时间顺序)
- ⭐⭐⭐ Vaswani, A., Shazeer, N., Parmar, N., et al. “Attention Is All You Need.” Advances in Neural Information Processing Systems (NeurIPS), 2017. arXiv:1706.03762
中文:瓦斯瓦尼等,《注意力就是你所需的一切》,NeurIPS 2017。Transformer架构的诞生,一切大模型的基石。
- ⭐⭐⭐ Bahdanau, D., Cho, K., Bengio, Y. “Neural Machine Translation by Jointly Learning to Align and Translate.” International Conference on Learning Representations (ICLR), 2015. arXiv:1409.0473
中文:巴达诺等,《通过联合学习对齐与翻译的神经机器翻译》,ICLR 2015。注意力机制的前身。
- ⭐⭐ Devlin, J., Chang, M.W., Lee, K., Toutanova, K. “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding.” NAACL, 2019. arXiv:1810.04805
中文:德夫林等,《BERT:面向语言理解的深度双向变换器预训练》,NAACL 2019。
-
⭐⭐ Brown, T., Mann, B., Ryder, N., et al. “Language Models are Few-Shot Learners.” NeurIPS, 2020. arXiv:2005.14165
中文:布朗等,《语言模型是少样本学习者》,NeurIPS 2020。GPT-3论文,缩放定律的里程碑验证。
B. 高效微调与持续学习
- ⭐⭐ Hu, E.J., Shen, Y., Wallis, P., et al. “LoRA: Low-Rank Adaptation of Large Language Models.” ICLR, 2022. arXiv:2106.09685
中文:胡等,《LoRA:大语言模型的低秩适配》,ICLR 2022。个人化模型的关键技术。
- ⭐⭐ Dettmers, T., Pagnoni, A., Holtzman, A., Zettlemoyer, L. “QLoRA: Efficient Finetuning of Quantized LLMs.” NeurIPS, 2023. arXiv:2305.14314
中文:德特默斯等,《QLoRA:量化大语言模型的高效微调》,NeurIPS 2023。
-
⭐ SD-LoRA. “Directional Low-Rank Adaptation for Continual Learning.” ICLR 2025 Oral. arXiv:2410.05143
中文:《方向性低秩适配:面向持续学习的SD-LoRA》,ICLR 2025口头报告。
C. 中国大模型(重点推荐)
- ⭐⭐⭐ DeepSeek-AI. “DeepSeek-V3 Technical Report.” 2024. arXiv:2412.19437
中文:深度求索AI,《DeepSeek-V3技术报告》,2024。中国开源MoE模型的里程碑。
- ⭐⭐⭐ DeepSeek-AI. “DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning.” 2025. arXiv:2501.12948
中文:深度求索AI,《DeepSeek-R1:通过强化学习激发大语言模型的推理能力》,2025。纯RL训练推理的突破。
- ⭐⭐ DeepSeek-AI. “DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models.” 2024. arXiv:2401.06066
中文:深度求索AI,《DeepSeekMoE:走向混合专家语言模型的极致专家专业化》,2024。
- ⭐⭐ Qwen Team (Alibaba). “Qwen Technical Report.” GitHub
中文:通义千问团队(阿里巴巴),《通义千问技术报告》。
-
⭐⭐ Zhipu AI. “ChatGLM: A Family of Large Language Models from GLM-130B to GLM-5.2.” GitHub
中文:智谱AI/清华大学,《ChatGLM:从GLM-130B到GLM-5.2的大语言模型家族》。
D. 记忆与知识编辑
- ⭐⭐ Meng, K., Bau, D., Andonian, A., Belinkov, Y. “Locating and Editing Factual Associations in GPT.” NeurIPS, 2022. arXiv:2202.05262
中文:孟等,《定位与编辑GPT中的事实性关联》,NeurIPS 2022。ROME方法。
- ⭐⭐ Meng, K., Sharma, A.S., Andonian, A., Belinkov, Y., Bau, D. “Mass-Editing Memory in a Transformer.” ICLR, 2023. arXiv:2210.07529
中文:孟等,《变换器中的批量记忆编辑》,ICLR 2023。MEMIT方法。
- ⭐⭐ A-MEM. “Agentic Memory for LLM Agents.” 2025. arXiv:2502.12110
中文:《智能体记忆:大语言模型智能体的记忆系统》,2025。
- ⭐⭐ 李志宇. “从上下文到长期记忆:大模型记忆工程的架构设计与实践.” QCon全球软件开发大会, 2025. InfoQ
中国记忆张量公司CTO的实践分享,MemOS记忆操作系统的完整设计思路。
- ⭐ Mem0. Open-source memory layer for AI agents. GitHub
中文:Mem0开源项目,AI智能体的记忆层。
- ⭐ Letta (MemGPT). Memory management framework for LLM agents. GitHub
中文:Letta开源项目(原MemGPT),大语言模型智能体的记忆管理框架。
-
⭐ 记忆张量(MemTensor). MemOS开源框架. GitHub
中文:上海记忆张量公司,全球首个大模型记忆操作系统。
E. 可解释性与特征提取
- ⭐⭐ Anthropic. “Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet.” 2024. 在线阅读
中文:Anthropic,《扩展单语义性:从Claude 3 Sonnet中提取可解释特征》,2024。
-
⭐⭐ Anthropic. “On the Biology of a Large Language Model.” 2025. 在线阅读
中文:Anthropic,《大语言模型的生物学》,2025。171个情绪向量的发现。
F. 神经科学与脑启发AI
- ⭐⭐ Kandel, E.R., Schwartz, J.H., Jessell, T.M., Siegelbaum, S.A., Hudspeth, A.J. Principles of Neural Science, 6th Edition. McGraw-Hill, 2021.
中文:坎德尔等,《神经科学原理》第6版,麦格劳-希尔出版社,2021。神经科学圣经级教材。
- ⭐⭐⭐ Herculano-Houzel, S. “The Human Brain in Numbers: A Linearly Scaled-up Primate Brain.” Frontiers in Human Neuroscience, 2009.
中文:赫库拉诺-乌泽尔,《数字中的大脑:一个线性放大的灵长类大脑》,《人类神经科学前沿》,2009。860亿神经元的权威来源。
- ⭐⭐ Bartol, T.M., Bromer, C., Kinney, J., et al. “Nanoconnectomic Upper Bound on the Variability of Synaptic Plasticity.” eLife, 2015.
中文:巴托尔等,《纳米连接组学对突触可塑性变异性的上界估计》,《eLife》,2015。
-
⭐ LeCun, Y. “A Path Towards Autonomous Machine Intelligence.” Open Review, 2022. 链接
中文:杨立昆,《通向自主机器智能之路》,2022。世界模型的理论框架。
G. 注意力与架构优化
- ⭐⭐ Dao, T., Fu, D.Y., Ermon, S., Rudra, A., Ré, C. “FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness.” NeurIPS, 2022. arXiv:2205.14135
中文:道等,《闪存注意力:具有IO感知的快速且内存高效的精确注意力》,NeurIPS 2022。
-
⭐⭐ Lewis, P., Perez, E., Piktus, A., et al. “Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks.” NeurIPS, 2020. arXiv:2005.11401
中文:刘易斯等,《面向知识密集型NLP任务的检索增强生成》,NeurIPS 2020。RAG技术的奠基论文。
H. 中文推荐书籍与资料
- ⭐⭐ 邱锡鹏. 《神经网络与深度学习》. 机械工业出版社, 2020. 在线版
复旦大学邱锡鹏教授著,中文深度学习经典教材,适合理工科本科生入门。
- ⭐ 李航. 《统计学习方法》第2版. 清华大学出版社, 2019.
中文机器学习领域最经典的教材之一。
- ⭐ 周志华. 《机器学习》. 清华大学出版社, 2016.
“西瓜书”,中国AI领域最知名的入门教材。
2025年AGI领域全面展望。
-
⭐ 新华网. “2026年中国AI发展趋势前瞻.” 2026年1月. 链接
官方视角的2026年中国AI发展路线图。
I. 论文检索平台(方便你自学)
| 平台 | 网址 | 特点 |
|---|---|---|
| arXiv | https://arxiv.org | 全球最大免费论文预印本库,AI论文首发地 |
| 中国知网(CNKI) | https://www.cnki.net | 中文学术论文最全平台 |
| 谷歌学术 | https://scholar.google.com | 跨语言论文检索 |
| Papers with Code | https://paperswithcode.com | 论文+代码,看效果最直观 |
| Hugging Face | https://huggingface.co | 开源模型、数据集、论文讨论 |
| 阿里魔搭社区 | https://modelscope.cn | 中国最大AI模型开源社区 |
| 机器之心 | https://www.jiqizhixin.com | 中文AI前沿资讯与论文解读 |
| 量子位 | https://www.qbitai.com | 中文AI产业新闻与技术追踪 |
更多推荐


所有评论(0)