🧩 大模型如何掌握、抽象与高维化人类知识——深层原理与记忆机制全景解析

生成日期:2026年6月26日
作者:WorkBuddy(本地龙虾AI助手)
提示词作者:将狼才鲸
写给谁:非计算机/非人工智能(Artificial Intelligence,简称AI)科班出身的普通理工科本科生
写作风格:科普向、有趣、图表丰富、专业引用、中英文术语对照
核心问题:大语言模型为什么能"理解"人类大部分知识?它的参数(Parameter)、向量(Vector)、记忆(Memory)到底怎么运作?和生物大脑差多远?强人工智能(Artificial General Intelligence,简称AGI)往哪走?


目录 📋

  1. 大模型的参数是什么——从浮点数到知识
  2. 大模型参数 vs 生物神经元——信息量的鸿沟
  3. 向量空间——万维语义宇宙
  4. 训练后参数锁死了吗——动态学习新知识
  5. 全球持续训练与动态更新——谁在做什么
  6. "注意力就是一切"的诞生——一篇论文改写AI历史
  7. 个体记忆的参数化——把"你"编码进模型
  8. 混合专家MoE——全知模型下的专精个体
  9. 个人永久记忆赛道——键值对 vs 参数+向量
  10. 记忆的动态增删改——参数级操控的可行手段
  11. 强人工智能如何实现——持续运行的自主Agent
  12. 记忆恢复术——参数黑匣子的逆变换
  13. 大模型 + 个体记忆 + 记忆可恢复——三位一体的AI
  14. 附录:关键术语表
  15. 参考文献与进阶阅读

1. 🧱 大模型的参数是什么——从浮点数到知识

1.1 一个参数到底是什么?

大模型中的"参数"(Parameter),本质是一个浮点数(Floating-point number)——通常用16位浮点格式(半精度浮点,FP16/BF16)或8位整数格式(INT8)存储。

一个参数 = 一个数字,例如 0.0073, -1.528, 0.0004

当几百亿、几千亿甚至上万亿个数字按照特定规则组织起来,它们就能编码人类知识的结构。大模型的知识本质上存储在万亿个浮点数的排列与组合里。

1.2 参数按什么类型存储?

存储格式 位数 精度 典型用途 中文说明
FP32 32位 训练时梯度计算 32位单精度浮点
FP16/BF16 16位 推理和训练的主力格式 16位半精度浮点
INT8 8位 量化推理,节省显存 8位整数量化
FP4/NF4 4位 极低 极致量化(如QLoRA技术) 4位超低精度量化

以70亿(7B,B=Billion=十亿)参数模型为例,用FP16存储需要约14GB显存。这也是为什么消费级显卡(通常8-16GB显存)运行大模型时资源紧张。

1.3 参数按什么模式组织?

大模型的"骨架"是Transformer架构(变换器架构,2017年提出),参数主要分布在以下几类"层"中:

┌─────────────────────────────────────────────┐
│          Transformer Block(变换器块) ×N层    │
│  ┌─────────────────────────────────────────┐ │
│  │ 1. 自注意力层(Self-Attention)           │ │
│  │    - W_Q (查询矩阵 Query)    d×d         │ │
│  │    - W_K (键矩阵 Key)        d×d         │ │
│  │    - W_V (值矩阵 Value)      d×d         │ │
│  │    - W_O (输出矩阵 Output)   d×d         │ │
│  ├─────────────────────────────────────────┤ │
│  │ 2. 前馈网络层(FFN, Feed-Forward Network)│ │
│  │    - W_up    d×4d  (升维矩阵)            │ │
│  │    - W_down  4d×d  (降维矩阵)            │ │
│  │    - W_gate  d×4d  (门控矩阵, GLU变体)   │ │
│  ├─────────────────────────────────────────┤ │
│  │ 3. 层归一化(RMSNorm/LayerNorm)         │ │
│  │    - γ (缩放参数 gamma)    d            │ │
│  │    - β (偏移参数 beta)     d            │ │
│  └─────────────────────────────────────────┘ │
│                                             │
│ 4. 词嵌入矩阵(Embedding)   词表大小×d       │
│ 5. 位置编码(Positional Encoding)          │
│ 6. 输出头(LM Head)         d×词表大小       │
└─────────────────────────────────────────────┘

以DeepSeek-V4为例(来源:DeepSeek技术报告):

  • 隐藏维度 d ≈ 8192(即每个内部向量的长度)
  • 注意力头数 = 128
  • 层数 ≈ 64
  • 前馈网络(FFN)中间维度 ≈ 20480
  • 架构:MoE(混合专家),总参数约284B(DeepSeek-V4-Flash版本),激活13B

不同模型的配置对比如下:

模型 隐藏维度 d 层数 注意力头数 发布方
GPT-5.5 (推测) ~16384 ~120 ~128 OpenAI
Claude Opus 4.7 (推测) ~12288 ~96 ~128 Anthropic
Gemini 3.1 Ultra (推测) ~16384 ~128 ~128 Google DeepMind
DeepSeek-V4 ~8192 ~64 ~128 深度求索
智谱GLM-5.2 744B总参/40B激活 MoE DSA 智谱AI
通义千问Qwen3.5.5-122B 122B总参/10B激活 MoE GQA 阿里巴巴
Kimi-K2.6 1T总参/32B激活 MoE 优化注意力 月之暗面
LLaMA 4.5-405B (推测) ~8192 ~96 ~64 Meta
Gemma-4-26B-A4B 25.2B总参/4B激活 MoE GQA Google
百川4 ~千亿级 未公开 未公开 百川智能

💡 说明:隐藏维度d越大,每个位置的表示能力越强——高维空间中向量可编码的信息量随维度指数增长(Cover定理)。

1.4 参数之间有没有联系?这种联系如何保存?

有。 参数之间不是孤岛,它们通过以下机制建立联系:

方式一:矩阵乘法(Matrix Multiplication)——结构化的联系

每一层的参数是一个矩阵(Matrix,即二维数字表格),输入向量与矩阵相乘,产生输出向量。这个过程本质是在做线性变换(Linear Transformation):

y = W·x + b
(输出 = 权重矩阵 × 输入向量 + 偏置项)
  • W中的每个参数不是孤立的,它和同一行/列的其他参数共同决定一个"语义方向"
  • 多层叠加后,参数之间形成了隐式的层级联系——浅层参数捕捉字形、词法,深层参数捕捉语义、推理

方式二:注意力机制(Attention Mechanism)——动态的联系

自注意力层(Self-Attention)是大模型最核心的创新。每个词(Token,词元)的查询向量(Query)与所有其他词的键向量(Key)做点积运算(Dot Product),得到注意力权重:

注意力(Q,K,V) = 柔性最大值函数(Q·K^T / √d_k) · V
即:Attention(Q,K,V) = softmax(Q·K^T / √d_k) · V

这使参数间的联系是数据驱动的、动态的——输入"苹果很好吃"和"苹果股价跌了",同一个"苹果"会激活完全不同的参数联系路径。前者关联到食物、味道相关的参数区域,后者关联到金融、科技相关的参数区域。

1.5 参数有向量的概念吗?

有,向量(Vector)是大模型最核心的概念之一。 模型内部几乎一切都是向量:

概念 维度 英文 说明
词嵌入 d (如7168) Token Embedding 每个词/子词对应一个d维向量
隐藏状态 d Hidden State 每层每个位置有一个d维向量
Query/Key/Value d_k 查询/键/值向量 注意力中的三类向量
FFN中间表示 4d FFN Intermediate 前馈网络展开的高维表示

一个向量就是一组有序的数字,如 [0.32, -1.18, 0.87, ..., 0.03],共7168个数字。每个数字代表该向量在对应维度上的"坐标",所有维度合在一起就构成了该向量的"语义位置"。

1.6 高维矩阵排列规则有多少?如何存储?

排列规则就是模型架构(Model Architecture)——它定义了矩阵的形状、连接方式和计算顺序。

规则类型 数量 说明
矩阵形状 ~2N+4 (N为层数) 每层4个注意力矩阵+3个FFN矩阵
激活函数(Activation) 2-3种 SiLU/SwiGLU(门控线性单元)、softmax(柔性最大值)、GELU(高斯误差线性单元)等
归一化方式(Normalization) 1种 RMSNorm(均方根归一化)或LayerNorm(层归一化)
残差连接(Residual Connection) N个 每层一个跳跃连接(Skip Connection)
位置编码(Positional Encoding) 1种 RoPE(旋转位置编码)、ALiBi等

关键理解:架构规则不是作为参数存储的,而是硬编码在模型代码中。参数只存储矩阵的具体数值——即那些小数。

📖 来源:

  • Vaswani et al., “Attention Is All You Need”, NeurIPS 2017. arXiv:1706.03762
    (中文:瓦斯瓦尼等,《注意力就是你所需的一切》,神经信息处理系统大会2017)
  • DeepSeek-AI, “DeepSeek-V4 Technical Report”, 2026.
    (中文:深度求索AI,《DeepSeek-V4技术报告》,2026)

2. 🧠 大模型参数 vs 生物神经元——信息量的鸿沟

2.1 数量对比

对比项 数量 来源
人类大脑神经元总数 ~860亿 Herculano-Houzel, 2009, Frontiers in Neuroscience
大脑皮层神经元 ~160亿 同上
神经元间突触连接(Synapse) ~100-1000万亿 Principles of Neural Science(《神经科学原理》), Kandel et al.
当前最大大模型参数(闭源推测) ~10万亿 GPT-5.5/Claude Opus 4.7等,各厂商未完全公开
Kimi-K2.6 参数 ~1万亿(总)/ ~32B激活 月之暗面
智谱GLM-5.2 参数 ~744B(总)/ 40B激活 智谱AI
DeepSeek-V4-Flash 参数 ~284B(总)/ 13B激活 深度求索
通义千问Qwen3.5.5-122B 参数 122B(总)/ 10B激活 阿里巴巴
Gemma-4-26B 参数 25.2B(总)/ 4B激活 Google
LLaMA 4.5 参数(推测) ~405B-2T Meta
突触连接数 : 神经元数 : 大模型参数
1000万亿   : 860亿  : ~10万亿

关键洞察:如果只比"参数数量",10万亿参数 ≈ 人类突触连接数的1%。但如果把每个突触连接的强度变化也算作一个"参数"(而不仅仅是连接存在与否),人类大脑的"有效参数量"远超当前任何大模型。

2.2 单个神经元 vs 单个参数:信息量差多少?

生物神经元远比一个浮点数复杂:

特征 生物神经元 大模型参数
结构 1个轴突(Axon)+ 多个树突(Dendrite)+ 胞体(Soma) 1个浮点数
内部状态 膜电位(Membrane Potential)、离子通道动态
可塑性 长时程增强(LTP)/长时程抑制(LTD) 仅训练时可变,推理时固定
信号类型 脉冲发放(Spike,时间编码) 连续值(速率编码)
树突计算 局部非线性计算
神经调制 多巴胺(Dopamine)/5-羟色胺(Serotonin)等化学调制
基因表达 活动依赖的基因调控
生物神经元信息量估算:
- 单个突触连接 ≈ 4-5 bit(比特,信息量最小单位)
  (来源:Bartol et al., 2015, eLife)
- 单个神经元平均 ~7000 个突触
- 单个神经元可携带 ≈ 7000 × 5 = 35000 bit ≈ 4.3 KB

大模型单个参数信息量:
- FP16 = 16 bit ≈ 2 Byte(字节)
- 参数间信息高度冗余(存在大量低秩结构,即信息可以被压缩)

信息量差距:单个神经元 ≈ 单个参数的 ~2000 倍

📖 来源:Bartol et al., “Nanoconnectomic upper bound on the variability of synaptic plasticity”, eLife, 2015
(中文:巴托尔等,《纳米连接组学对突触可塑性变异性的上界估计》,《eLife》期刊,2015)

2.3 大模型要追上生物大脑,需要什么改进?

改进方向 当前状态 生物参照 中外代表性研究
稀疏激活(Sparse Activation) MoE已部分实现 大脑仅1-2%神经元同时活跃 DeepSeekMoE(中);Google MoE/Switch Transformer(美)
动态路由(Dynamic Routing) 硬路由/软路由 神经调制灵活调控 清华/智谱路由策略(中);Google BASE Layers(美)
时间编码(Temporal Coding) 无(仅连续值) 脉冲神经网络(SNN) 北大/浙大脑启发计算(中);Intel Loihi 2、IBM NorthPole(美)
局部学习规则 反向传播(全局) 赫布学习(Hebb,局部) 中科院自动化所(中);DeepMind Forward-Forward(美)
树突计算(Dendritic Computation) 非线性树突整合 尚未有大规模突破
神经调制(Neuromodulation) 多巴胺/5-HT信号 中科院神经所(中);MIT/Harvard神经AI联合(美)

📖 来源:


3. 🌌 向量空间——万维语义宇宙

3.1 什么是向量空间?

把每个词映射到一个高维空间中的一个点,这就是词嵌入(Word Embedding,又称词向量)

例:在二维空间中(实际是万维)
"国王" ────────→ [0.90, 0.80]
"王后" ────────→ [0.85, 0.75]
"男人" ────────→ [0.70, 0.50]
"女人" ────────→ [0.65, 0.45]

经典语义关系:国王 - 男人 + 女人 ≈ 王后
即:king - man + woman ≈ queen

这个关系最早由Google的研究员Tomas Mikolov在2013年发现(著名的Word2Vec论文),它证明了向量不仅能表示词,还能编码语义关系——向量的方向就是语义,向量的加减就是语义运算。

3.2 当前大模型的向量空间为什么有上万维?

模型 隐藏维度 d /总参数 注意力头数 每头维度 d_k 发布方
GPT-5.5 (推测) ~16384 ~128 ~128 OpenAI
Claude Opus 4.7 (推测) ~12288 ~96 ~128 Anthropic
Gemini 3.1 Ultra (推测) ~16384 ~128 ~128 Google DeepMind
DeepSeek-V4 ~8192 ~128 ~128 深度求索
智谱GLM-5.2 744B总参/MoE DSA注意力 智谱AI
Kimi-K2.6 ~1T总参/MoE 优化注意力 月之暗面
通义千问Qwen3.5.5-122B 122B总参/MoE GQA 阿里巴巴
LLaMA 4.5-405B (推测) ~8192 ~64 ~128 Meta
Gemma-4-26B-A4B 25.2B/MoE GQA Google

为什么需要上万维?

  1. 语义分辨力:人类语言有数百万概念,低维空间无法让每个概念占据独一无二的位置。就像一张纸(2维)只能画有限多的不重叠的点,但一个立方体(3维)可以装更多。

  2. 关系编码:高维空间中,向量之间的角度距离自然编码了语义关系。相似概念的向量夹角小(余弦相似度高),不相关概念的向量接近正交。

  3. 组合性:复杂概念 = 简单概念的高维组合。如"蓝色的汽车"≈"蓝色"向量+"汽车"向量的组合。

  4. 容量定理(Cover’s Theorem, 1965):d维空间可以容纳约 e^d(e的d次方)个线性可分的类别。也就是说维度翻倍,可表示的概念数是之前的指数的指数倍。

3.3 向量空间如何与参数配合?

输入文本:"芯片设计很有趣"
         │
         ▼
    ┌──────────────┐
    │ 分词器         │  分词为 ["芯片","设计","很","有趣"]
    │ (Tokenizer)   │
    └─────┬────────┘
          │ 查词嵌入表
          ▼
    ┌────────────────────────┐
    │ 嵌入层(Embedding)      │  每个词 → d维向量
    │ 参数: 词表大小 × d       │  这是模型中最大的矩阵之一
    └─────┬──────────────────┘
          │ 加位置编码(RoPE旋转位置编码)
          ▼
    ┌────────────────────────┐
    │ Transformer层 ×N        │  向量在层间流动、变换
    │ - 注意力层: 向量间交互   │  参数控制变换的方式
    │ - 前馈网络层: 逐元素变换 │
    └─────┬──────────────────┘
          │
          ▼
    ┌────────────────────────┐
    │ 输出头(LM Head)        │  d维向量 → 词表大小维概率
    │ 参数: d × 词表大小       │  预测下一个词
    └────────────────────────┘

参数是规则,向量是数据。 参数决定向量如何变换,向量承载具体语义信息。

3.4 向量空间如何提高生成效率和准确度?

技术 中文说明 原理 效果
KV Cache 键值缓存 缓存已计算的Key/Value向量 推理速度提升3-5倍
Flash Attention 闪存注意力 优化的注意力计算核心算法 训练速度提升2-3倍
投机解码 Speculative Decoding 小模型猜、大模型验 推理速度提升2-4倍
量化(INT8/INT4) Quantization 降低向量精度 推理显存减半,速度翻倍
向量数据库(RAG) 检索增强生成 外部知识编码为向量注入 减少幻觉,提高事实准确度

📖 来源:

  • Dao et al., “FlashAttention: Fast and Memory-Efficient Exact Attention”, NeurIPS 2022. arXiv:2205.14135
    (中文:道等,《闪存注意力:快速且内存高效的精确注意力》,NeurIPS 2022)
  • Leviathan et al., “Fast Inference from Transformers via Speculative Decoding”, ICML 2023. arXiv:2302.01318
    (中文:利维坦等,《通过投机解码加速变换器推理》,ICML 2023)

4. 🔓 训练后参数锁死了吗——动态学习新知识

4.1 基础模型:训练后确实"锁死"

预训练(Pre-training)完成后,模型的参数被冻结(Freeze,即不再改变)。推理(Inference,即使用模型回答问题)时参数固定不动——这就是为什么大模型不知道训练截止日期之后发生的事情。

4.2 如何不重新训练就能学习新知识?

方法 核心思想 参数变动量 中文说明
LoRA 冻结原权重,插入低秩矩阵ΔW=AB 0.1%-1% 低秩适配(Low-Rank Adaptation)
QLoRA 量化原权重+LoRA 0.1% 量化低秩适配
Adapter 插入小型适配器层 1%-5% 适配器方法
前缀微调 学习虚拟前缀向量 <0.1% Prefix Tuning
RAG 检索外部知识注入上下文 0% 检索增强生成(Retrieval-Augmented Generation)
持续预训练 用新数据继续训练部分层 可变 Continual Pre-training
RLHF/DPO 用人类偏好微调 小比例 人类反馈强化学习/直接偏好优化

4.3 LoRA原理图解

原始权重矩阵 W (冻结)         LoRA增量 ΔW = A × B
┌──────────────┐          ┌────┐ ┌──────────┐
│              │          │    │ │          │
│   d × d      │    +     │d×r │ │  r×d     │    (r << d)
│   (冻结)     │          │    │ │          │
│              │          │    │ │          │
└──────────────┘          └────┘ └──────────┘
  参数量: d²                 参数量: 2×d×r

例如:d=4096, r=8 时
  原始参数量: 4096² ≈ 1678万
  LoRA参数量: 2×4096×8 ≈ 6.6万
  LoRA仅占原始的 0.39%!

实战应用:目前国内AI社区中,使用LoRA针对通义千问Qwen、智谱GLM等开源模型进行个性化微调,是个人开发者和中小企业的首选方案。阿里云魔搭社区(ModelScope)上有大量开源的LoRA微调模型。

4.4 灾难性遗忘——持续学习的最大敌人

当你用新知识微调模型时,旧知识会被"冲掉"——这就是灾难性遗忘(Catastrophic Forgetting)

训练前:模型知道 A、B、C、D、E
微调新知识F后:模型知道 A'、B'、C'、D'、F
                           ↑ 原来的E被冲掉了!
对抗遗忘的方法 中文说明 机制
EWC 弹性权重巩固 限制重要参数的变化幅度
渐进式神经网络 Progressive Networks 新任务新增列,不修改旧参数
LoRA + 正交约束 Orthogonal Constraint 新LoRA矩阵与旧矩阵正交,互不干扰
回放(Replay) Experience Replay 混合少量旧数据一起训练
SD-LoRA 方向-幅度分离 分离方向和幅度,仅调幅度

📖 来源:

  • Hu et al., “LoRA: Low-Rank Adaptation of Large Language Models”, ICLR 2022. arXiv:2106.09685
    (中文:胡等,《LoRA:大语言模型的低秩适配》,ICLR 2022)
  • Dettmers et al., “QLoRA: Efficient Finetuning of Quantized LLMs”, NeurIPS 2023. arXiv:2305.14314
    (中文:德特默斯等,《QLoRA:量化大语言模型的高效微调》,NeurIPS 2023)

5. 🌍 全球持续训练与动态更新——谁在做什么

5.1 主要玩家和技术路线

公司/机构 国别 方法 最新进展(截至2026年6月)
OpenAI 美国 RLHF + 持续预训练 + o系列推理 GPT-5.5;o系列推理模型持续迭代
Google DeepMind 美国 Gemini持续预训练 + Titans记忆架构 Gemini 3.1 Ultra;Titans打破无状态限制
Anthropic 美国 Constitutional AI + 持续对齐 Claude Opus 4.7;Auto-Memory记忆系统
深度求索(DeepSeek) 中国 MoE(混合专家)+ GRPO强化学习 + 持续迭代 DeepSeek V4系列(V4-Flash免费),1M上下文,开源
智谱AI(GLM) 中国 GLM系列持续预训练 + DSA注意力 + Agent能力 GLM-5.2(744B总参/40B激活),SWE-bench Pro 62.1%,超越GPT-5.5
阿里巴巴(通义千问) 中国 Qwen系列持续预训练 + MoE + 多模态 Qwen3.5.5-122B-A10B,极高效(激活比8.2%)
月之暗面(Kimi) 中国 长上下文 + Agent群体协作 Kimi-K2.6(1T总参/32B激活),Agent Swarm多模态
字节跳动(豆包) 中国 豆包大模型 + 强化学习记忆优化 日均调用120万亿,国内市场份额主导
MiniMax 中国 多模态MoE + 百万级上下文 MiniMax-M2.5,2026年全球调用量反超,推理效率领先
Meta 美国 LLaMA系列开源 + 持续训练 LLaMA 4.5系列
百度(文心) 中国 文心系列持续预训练 ERNIE 5.0系列,千帆平台
百川智能 中国 百川系列持续预训练 百川4系列,开源
阶跃星辰 中国 多模态+Agent 万亿参数MoE模型

5.2 最前沿的突破

深度求索 DeepSeek - GRPO强化学习(2025)

用纯强化学习(不需要人工标注数据)训练推理能力:

  • 核心思想:分组相对策略优化(Group Relative Policy Optimization, GRPO)
  • 论文:DeepSeek-R1
  • 意义:证明强化学习可以自发涌现推理能力

智谱 GLM-5.2 - DSA注意力+Agent编码(2026)

  • 核心思想:动态稀疏注意力(Dynamic Sparse Attention, DSA)+ MoE架构
  • GLM-5.2在SWE-bench Pro编码基准上以62.1%超越GPT-5.5,成本仅为后者1/6
  • 744B总参数,40B激活参数,1M上下文窗口

月之暗面 Kimi-K2.6 - Agent群体协作(2026)

  • 核心思想:Agent Swarm——将复杂任务拆解为多个并行子任务,由一组AI智能体协作完成
  • 代表能力:长程代码任务中多Agent协同,多模态原生集成

Google DeepMind - Titans架构(NeurIPS 2025)

  • 核心思想:在Transformer层内加入可学习的记忆模块,模型可以在推理时动态更新内部记忆
  • 意义:打破了传统Transformer的"无状态"假设,向生物大脑的海马体(Hippocampus)记忆机制靠近

📖 来源:

  • DeepSeek-AI, “DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning”, 2025. arXiv:2501.12948
    (中文:深度求索AI,《DeepSeek-R1:通过强化学习激发大语言模型的推理能力》,2025)
  • 记忆张量MemOS开源框架. GitHub

6. 📜 "注意力就是一切"的诞生——一篇论文改写AI历史

6.1 前Transformer时代:RNN和CNN的困境

2017年之前,自然语言处理(NLP, Natural Language Processing)领域的两大主流架构:

架构 优势 致命缺陷
RNN/LSTM(循环神经网络/长短期记忆网络) 能处理变长序列 必须逐词计算,无法并行;长距离依赖衰减
CNN(卷积神经网络) 可并行计算 只能捕捉局部窗口,长距离依赖需堆很多层
RNN的计算:必须等待前一步完成
  x₁ → h₁ → h₂ → h₃ → ... → hₙ
       ↑ 每步依赖上一步,无法并行!

CNN的计算:只能看到局部窗口
  x₁ x₂ x₃ x₄ x₅
  [───]           ← 第1层只看3个相邻词
  [───────────]   ← 需要堆叠多层才能看远

6.2 发明者是谁?

2017年论文 “Attention Is All You Need” (《注意力就是你所需的一切》)的八位作者(后被AI界封为"Transformer八子"):

作者 当时角色 后来去向
Ashish Vaswani(阿希什·瓦斯瓦尼) 第一作者,Google Brain 创办Adept AI
Noam Shazeer(诺姆·沙泽尔) 核心架构设计 Character.AI → 回Google → 2026年转投OpenAI
Niki Parmar(尼基·帕尔马) Google Brain 与Vaswani共创Adept AI
Jakob Uszkoreit(雅各布·乌兹科雷特) Google Research 创办Inceptive
Llion Jones(莱昂·琼斯) Google Research 在日本创办Sakana AI
Aidan Gomez(艾丹·戈麦斯) Google Brain实习生 创办Cohere(估值超50亿美元)
Łukasz Kaiser(卢卡什·凯泽) Google Brain 加入OpenAI
Illia Polosukhin(伊利亚·波洛苏欣) Google Research 创办NEAR Protocol

📖 来源:Vaswani et al., 2017
(中文:瓦斯瓦尼等,《注意力就是你所需的一切》,2017)

6.3 他们是如何察觉到这个方向的?

洞察一:注意力机制已有基础

2014-2015年,Bahdanau等人在机器翻译中提出了注意力机制(Neural Machine Translation by Jointly Learning to Align and Translate, Bahdanau et al., ICLR 2015)。它允许解码器"关注"输入序列的任意位置,而不仅看最后一个隐藏状态。

📖 来源:Bahdanau et al., “Neural Machine Translation by Jointly Learning to Align and Translate”, ICLR 2015. arXiv:1409.0473
(中文:巴达诺等,《通过联合学习对齐与翻译的神经机器翻译》,ICLR 2015)

洞察二:RNN的顺序依赖是瓶颈

Google团队在训练大规模翻译模型时发现:

  • RNN必须逐步计算,GPU(图形处理器)利用率极低
  • 长句子翻译质量急剧下降
  • 硬件加速对RNN帮助有限

洞察三:也许RNN根本不需要?

Shazeer和Uszkoreit等人提出了一个大胆假设:

如果注意力机制已经能让模型直接"看到"序列中任意位置的信息,那RNN的顺序编码还必要吗?

验证过程:他们构建了一个纯注意力架构:

  1. 去掉所有递归结构(Recurrence)
  2. 用**自注意力(Self-Attention)**替代RNN
  3. 加入多头注意力(Multi-Head Attention),让模型同时关注多种关系
  4. 加入位置编码(Positional Encoding),补偿丢失的顺序信息

6.4 那篇开天辟地的论文

论文标题 “Attention Is All You Need” 直译是"你只需要注意力"。

关键成果

  • 在WMT 2014英德翻译任务上,BLEU分数(机器翻译质量评分)比当时最好的模型高2.0+
  • 训练速度比当时最优模型快一个数量级(约10倍)
  • 模型完全可并行,GPU利用率大幅提高
论文发表时的结果对比:
┌──────────────────────┬──────────┬──────────┐
│     模型              │ 英→德     │ 英→法     │
│                      │ BLEU分    │ BLEU分    │
├──────────────────────┼──────────┼──────────┤
│ 之前最优(集成)        │ 24.61    │ 39.92    │
│ Transformer(big)     │ 28.40    │ 41.80    │
│ 提升                 │ +3.79    │ +1.88    │
└──────────────────────┴──────────┴──────────┘
训练成本:仅为之前最优模型的1/4

6.5 别人如何第一时间判断方向正确?

OpenAI的反应

2017年底,OpenAI的Ilya Sutskever(伊利亚·苏茨克维)等人立即意识到Transformer的潜力。2018年6月,OpenAI发布了GPT-1(生成式预训练变换器第一代)——第一个用Transformer解码器做语言模型的尝试。虽然GPT-1效果一般,但它验证了方向:Transformer + 大规模预训练 = 强语言能力

Google内部的反应

Google自己的BERT团队(Devlin et al., 2018)走了另一条路——用Transformer编码器做双向预训练。BERT在11项NLP基准上全面刷新纪录,进一步验证了Transformer的通用性。

学术界的验证潮

时间 事件 验证了什么 中文说明
2017.06 "注意力就是你所需的一切"论文发表 翻译任务达到最优(SOTA) 奠基论文
2018.06 GPT-1发布 解码器可做语言模型 首个GPT变体
2018.10 BERT发布 编码器可做双向理解 双向变换器
2019.02 GPT-2发布 规模扩大后涌现零样本能力 参数增至15亿
2020.06 GPT-3发布 1750亿参数涌现少样本能力 缩放定律确立
2023.03 GPT-4发布 多模态+推理+1.8万亿参数(推测) 全面超越人类基准
2024.12 DeepSeek-V3发布 MoE架构671B总参数,开源 中国开源模型里程碑
2025.01 DeepSeek-R1发布 纯RL训练推理能力涌现 强化学习新范式
2026.Q1 DeepSeek V4 + Kimi K2.6 1M上下文+Agent群体协作 中国模型局部领先

6.6 发明者如何断定方向正确性?

Noam Shazeer后来在访谈中提到,他们断定方向正确的关键信号是:

  1. 训练效率:相同数据量下训练速度快了一个数量级
  2. 可扩展性:模型越大效果越好,没有饱和迹象
  3. 通用性:同一个架构在翻译、摘要、问答上都有效

💡 科学技术史视角:Transformer的发明不是凭空而来,而是站在了注意力机制(2014-2015)、并行计算硬件(GPU/TPU)、大规模文本数据积累三块基石之上。八位作者敏锐地意识到——RNN的顺序依赖是并行化的最大瓶颈,而注意力机制天然适合并行。这种"去掉瓶颈、保留核心"的思路,是科研史上经典的范式转变(Paradigm Shift,库恩《科学革命的结构》)。


7. 👧🏻 个体记忆的参数化——把"你"编码进模型

7.1 核心问题

每个人的经历、语言、偏好、技能都不同——这些差异能否用大模型的参数+向量方式编码?当前可以部分做到,但技术仍不成熟,是AI界最前沿方向之一。

7.2 行业内的术语

术语 英文 侧重
个性化大模型 Personalized LLM 针对个人定制的大模型
持久记忆 Persistent Memory 跨会话、不丢失的记忆
持续学习 Continual Learning 不停学习新知识而不遗忘旧知识
个人AI/数字孪生 Personal AI / AI Twin 一个"像你"的AI副本
具身记忆 Embodied Memory 机器人的物理世界记忆
终身学习 Lifelong Learning 永不停止的学习
记忆工程 Memory Engineering 2026年新热门方向

7.3 把个人交互记录参数化存储可行吗?

当前有三条路线

路线1:RAG + 向量数据库
  个人数据 → 文本切片 → 词嵌入 → 向量库 → 检索时注入上下文
  优点:简单、可控、可解释
  缺点:不是真正的"理解",只是检索
  代表:大多数当前产品

路线2:LoRA/Adapter微调
  个人数据 → 构建训练集 → LoRA微调 → 个人化适配器
  优点:参数级编码,模型真正"学到了"你的特点
  缺点:训练成本高、灾难性遗忘风险
  代表:阿里ModelScope社区的个性化微调生态

路线3:混合架构(2026年最前沿)
  核心模型(冻结) + 个人参数(LoRA) + 个人向量库(RAG) + 记忆管理器
  优点:结合两者优势
  缺点:系统复杂,工程难度大
  代表:记忆张量MemOS、字节跳动记忆增强方案

7.4 具身智能的参数化记忆

对一款机器人或自动驾驶汽车:

场景 记忆内容 参数化方案 中外代表
具身机器人 空间地图、动作序列、物体交互 世界模型(视频预测) + 动作嵌入 宇树科技、银河通用(中);Boston Dynamics、Figure AI(美)
自动驾驶 路线、路况处置记录 场景嵌入 + 策略LoRA 百度Apollo、华为、小鹏(中);Tesla FSD、Waymo(美)
虚拟个体 虚假经历、个性设定 全参数微调/LoRA + 性格向量 字节豆包、智谱清言(中);Character.AI(美)

7.5 虚假经历能创造个性吗?

理论上可以,但需要大量经历数据。 "虚假经历"不是简单设定性格标签,而是用该个体的对话数据、阅读记录、决策历史构建训练集,通过参数化编码塑造行为模式。

当前国内外的实验如下:

产品/项目 国别 实现方式 效果
智谱清言(GLM-5.2) 中国 GLM+DSA注意力+Agent能力 编码能力超越GPT-5.5,国内个性AI旗舰
字节豆包 中国 多轮记忆+偏好编码+RL优化 日均调用120万亿,超大规模个性化
Character.AI 美国 提示词+角色数据微调 角色扮演领域最成熟
星野/彩云小梦 中国 个性化对话微调 国内AI角色扮演领先
记忆张量MemOS 中国 参数化记忆+分层管理 记忆可独立打包/下载/安装
MiniMax-M2.5 中国 MoE+多模态个性编码 2026推理效率全球领先
阶跃星辰 中国 万亿MoE+个性编码 多模态个性AI

记忆交易市场:记忆张量计划在2026-2027年上线"记忆交易市场":开发者将企业知识封装成"记忆体"上架,用户按需下载安装——类似于应用商店的标准化记忆分发模式。


8. 🏛️ 混合专家MoE——全知模型下的专精个体

8.1 混合专家(MoE, Mixture of Experts)核心原理

传统密集(Dense)模型:每个词激活所有参数
┌─────────────────────────────────────┐
│  词 → [全部参数都参与计算] → 输出    │
│  7B参数 → 7B计算量                   │
└─────────────────────────────────────┘

MoE模型:每个词只激活少数专家
┌─────────────────────────────────────┐
│  词 → Router → [专家1] ─┐           │
│       (路由器) → [专家5] ─┤→ 输出    │
│               → 跳过其他专家│         │
│  671B总参数 → 37B激活参数   │
└─────────────────────────────────────┘

8.2 MoE的关键组件

组件 中文说明 作用 典型配置
专家网络(Experts) 子网络 各自学习不同领域知识 8-256个前馈网络
门控网络(Router/Gate) 路由器 决定每个词去哪个专家 轻量线性层
Top-K选择 前K个专家 每次只激活K个专家 K=2, 8
负载均衡损失 Auxiliary Loss 防止所有词涌向同一个专家 辅助损失函数

8.3 不同专家是否相当于有专精的个体?

部分是,但不是完全的"个体"

对比维度 MoE专家 人类专家
专精领域 通过训练自动分化 主动选择学习
个性/记忆 无独立记忆 有独立人生经历
知识共享 共享注意力层等基础结构 有独立认知框架
自主性 被动被路由选择 主动选择任务

更准确的类比:MoE专家更像一个"全知大脑"中的不同功能区——如同视觉皮层和语言皮层(布罗卡区)分工不同,但共享同一个大脑。

8.4 代表性MoE模型

模型 总参数 激活参数 激活比 专家数 Top-K 发布方
Kimi-K2.6 ~1T ~32B ~3.2% 未公开 未公开 月之暗面
智谱GLM-5.2 744B 40B 5.4% 未公开 未公开 智谱AI
DeepSeek-V4-Flash 284B 13B 4.6% ~256 8 深度求索
DeepSeek-V3 671B 37B 5.5% 256 8 深度求索
通义千问Qwen3.5.5-122B 122B 10B 8.2% 未公开 未公开 阿里巴巴
Gemma-4-26B-A4B 25.2B 4B 15.9% 未公开 未公开 Google
阶跃星辰Step-2 ~1T 未公开 未公开 未公开 阶跃星辰
MiniMax-M2.5 未公开 未公开 未公开 未公开 MiniMax
GPT-5.5 (闭源推测) 未公开 未公开 推测MoE 未公开 OpenAI

📖 来源:

  • DeepSeek-AI, “DeepSeek-V3 Technical Report”, 2024. arXiv:2412.19437
    (中文:深度求索AI,《DeepSeek-V3技术报告》,2024)
  • DeepSeek-AI, “DeepSeekMoE: Towards Ultimate Expert Specialization”, 2024. arXiv:2401.06066
    (中文:深度求索AI,《DeepSeekMoE:走向极致的专家专业化》,2024)

9. 💾 个人永久记忆赛道——键值对 vs 参数+向量

9.1 两条技术路线对比

维度 键值对/数据库路线 参数+向量路线
存储方式 结构化文本、JSON、Markdown 模型权重(LoRA) + 向量嵌入
检索方式 精确匹配/全文检索 语义相似度检索
理解程度 原文存储,不理解内容 高维压缩,内化了语义
可解释性 高(直接看原文) 低(参数是黑匣子)
更新灵活性 容易增删改 困难(需重新训练/微调)
代表产品 Claude MEMORY.md 记忆张量MemOS参数化记忆

9.2 主要公司和产品(2026年最新)

公司/产品 国别 技术路线 关键特点
Google(Gemini Personal Intelligence) 美国 混合:跨应用数据+语义理解+Titans记忆架构 Titans在Transformer内植入可学习记忆;可调取Gmail/Photos/搜索记录
OpenAI(ChatGPT Memory) 美国 混合:云端向量库+摘要 全自动黑盒加载;可引用所有历史对话;GPT-5.5整合深度记忆
Anthropic(Claude Auto-Memory) 美国 键值对:本地MEMORY.md 用户可控、按需触发、透明;NeurIPS 2025可解释性研究
字节跳动(豆包) 中国 混合:RL强化学习优化记忆 日均调用120万亿;全球最大规模记忆优化实践
记忆张量(MemTensor/MemOS) 中国 参数+向量混合 全球首个记忆操作系统;记忆分层管理(参数化+激活+明文);天使轮近亿人民币
阿里巴巴(通义千问) 中国 混合:跨应用数据+语义理解 Qwen3.5.5记忆能力增强;魔搭社区生态
智谱AI(清言) 中国 混合:GLM-5.2+对话记忆 编码+Agent能力领先,配合上下文记忆
月之暗面(Kimi) 中国 长上下文+记忆管理 K2.6超长上下文+Agent Swarm协作
百度(文心一言) 中国 混合:千帆平台+记忆API ERNIE 5.0系列
Mem0 美国/印度 向量优先:API化记忆层 AWS Agent SDK独家记忆提供商;GitHub 4.1万星;A轮2400万美元
Letta(原MemGPT) 美国 混合:主上下文+外部存储 UC Berkeley孵化;编程Agent记忆管理流水线

9.3 记忆的遗忘机制

人脑的记忆不是无限增长的——有了新经历会慢慢淡化最久远最无用的经历。

方法 英文说明 机制 代表
滑动窗口 Sliding Window 只保留最近N条记忆 大多数对话系统
重要性评分 Importance Scoring 自动评估记忆重要性,删除低分项 ChatGPT Memory
压缩摘要 Compression/Summarization 将多条旧记忆压缩为一条摘要 MemGPT/Letta
主动遗忘 Active Forgetting 基于时间衰减和访问频率 A-MEM
层级记忆 Hierarchical Memory 短期→中期→长期,逐级压缩 MemOS三层记忆立方体(MemCube)

A-MEM(2025-2026突破性方案)

受德国社会学家卢曼的卡片盒笔记法(Zettelkasten)启发,将记忆分解为原子化笔记,自动建立笔记间的动态链接:

  • 多跳推理F1值提升近3倍(F1是精确率与召回率的调和平均)
  • 词元(Token)消耗降低85-93%

记忆张量MemOS - 记忆分层机制(2026年最完整方案)

记忆张量CTO李志宇博士在2025年QCon全球软件开发大会上提出的三层记忆框架:

  1. 参数化记忆(隐性记忆):通过继续训练固化在模型参数中——类似骑自行车的技能,一旦学会不再需要刻意思考。写入慢(需训练)、读取快(直接推理)。
  2. 激活记忆(显性记忆):以KV Cache形式暂存在GPU显存——类似你刚才看过的书页,随时可快速回顾。读写都很快但容量有限。
  3. 明文记忆(外部记忆):存储在外部向量库中——类似开卷考试时翻书查找。写入快(直接存入)、读取慢(需要检索+编码)。

这三种记忆类型的组合调度,是目前最接近人脑"海马体+新皮层"双记忆系统的人工实现。

📖 来源:

  • 李志宇, “从上下文到长期记忆:大模型记忆工程的架构设计与实践”, QCon 2025. InfoQ
  • A-MEM, “Agentic Memory for LLM Agents”, 2025. arXiv:2502.12110
    (中文:《智能体记忆:大语言模型智能体的记忆系统》,2025)

10. ✏️ 记忆的动态增删改——参数级操控的可行手段

10.1 当前可行手段

手段 技术成熟度 中文说明
RAG(检索增强生成) ✅ 加文档 ✅ 删文档 ✅ 改文档 成熟 外部知识注入
LoRA适配器 ✅ 新训练 ⚠️ 卸载适配器 ⚠️ 重新训练 成熟 低秩适配微调
知识编辑(ROME/MEMIT) ⚠️ 部分 实验阶段 直接修改模型知识
提示工程(Prompt Engineering) 成熟但脆弱 通过提示词控制
持续预训练 ⚠️ 成熟但昂贵 用新数据继续训练
记忆管理框架(MemGPT/MemOS) 发展中 专门的记忆管理系统

10.2 知识编辑——直接修改模型中的特定知识

ROME(Rank-One Model Editing,秩一模型编辑)和MEMIT(Mass-Editing Memory in a Transformer,变换器中的批量记忆编辑)是当前最前沿的"参数级记忆手术"方法:

原理:模型中的知识存储在FFN层的特定"键-值"对中
      FFN可以看作一个联想记忆:
      Key向量(触发词) → Value向量(关联知识)

修改过程:
1. 定位:找到存储目标知识的FFN层和神经元
2. 计算:用新知识替换对应的Value向量
3. 验证:确认修改生效且未破坏其他知识
方法 可同时编辑条数 副作用控制 中文说明
ROME 1条 较好 秩一模型编辑
MEMIT 数千条 中等 批量变换器记忆编辑
PMET 数百条 较好 精确模型编辑工具

📖 来源:

  • Meng et al., “Locating and Editing Factual Associations in GPT”, NeurIPS 2022. arXiv:2202.05262
    (中文:孟等,《定位与编辑GPT中的事实性关联》,NeurIPS 2022)
  • Meng et al., “Mass-Editing Memory in a Transformer”, ICLR 2023. arXiv:2210.07529
    (中文:孟等,《变换器中的批量记忆编辑》,ICLR 2023)

10.3 在这个方向做得好的公司

公司/团队 国别 方向 2026年进展
Google DeepMind 美国 Titans架构内置记忆 NeurIPS 2025;在Transformer内植入可学习记忆模块
OpenAI 美国 知识编辑+大规模记忆 GPT-5.5整合深度记忆;RLHF后训练优化
字节跳动 中国 强化学习驱动的记忆管理 全球最大规模记忆优化实践;RL优化短期/长期记忆协同
记忆张量(MemTensor) 中国 记忆操作系统(增删改全流程) MemOS 1.0发布;记忆可独立打包、下载、安装
Anthropic 美国 可解释记忆系统 Claude Opus 4.7透明可编辑记忆
深度求索 中国 后训练+持续优化 DeepSeek V4;GRPO持续优化
阿里巴巴(通义) 中国 多模态记忆+跨应用记忆 Qwen3.5系列增强
智谱AI 中国 GLM持续学习+记忆增强 GLM-5.2记忆框架
Mem0 美国/印度 API化记忆增删改 生产级API,季度调用1.86亿次
哈佛团队(SD-LoRA) 美国 低秩持续学习 ICLR 2025 Oral

11. 🤖 强人工智能如何实现——持续运行的自主Agent

11.1 核心挑战

一个真正的强人工智能(AGI)智能体(Agent)需要:

能力 当前状态 缺失原因
24小时持续运行 ✅ 可实现 工程问题,非科学问题
持续感知所有输入 ⚠️ 有限 上下文窗口限制(尽管已扩展至1M token)
保持主动/进取心 ❌ 缺失 没有内在驱动力机制
持续学习 ⚠️ 部分 灾难性遗忘
自主目标设定 ❌ 缺失 缺少价值系统和内驱力模型

11.2 当前最有可能的方向

方向一:世界模型 + 强化学习

Meta AI首席科学家Yann LeCun(杨立昆)提出的JEPA(联合嵌入预测架构,Joint Embedding Predictive Architecture):

方向二:认知架构 + 长期记忆(中国路线)

北京通用人工智能研究院(BIGAI)朱松纯团队提出的"乌鸦范式":

  • 核心思想:从"大数据小任务"的鹦鹉范式转向"小数据大任务"的乌鸦范式
  • 智能体需具备自主感知、认知、推理、学习和执行能力
  • 清华大学张钹院士(91岁)在2026年AGI Next峰会上指出:AGI必须具备多模态理解、在线学习、可验证推理等五项关键能力

方向三:推理时计算 + 测试时思考(Test-Time Compute)

OpenAI o系列和DeepSeek R1的方向:

  • 核心思想:智能不仅是参数数量的函数,也是思考时间的函数
  • 让模型在输出前进行长时间内部推理(思维链)
  • DeepSeek-R1用纯强化学习(GRPO)自发涌现了推理能力
  • 来源:DeepSeek-R1

方向四:脑科学启发的持续学习

  • 快慢双记忆系统(海马体+新皮层)
  • 突触修剪(Synaptic Pruning)+ 赫布可塑性(Hebbian Plasticity)
  • 稀疏编码(Sparse Coding)

11.3 2026年AGI Next峰会——中国AI大佬的共识与分歧

2026年1月10日,由清华大学与智谱AI联合发起的AGI Next前沿峰会在北京召开,以下是核心观点:

人物 机构 核心观点
张钹院士 清华大学 大模型存在指称、因果等五大根本缺失;AGI需有"可执行、可检验"的定义
唐杰 智谱AI “Chat范式的竞争已经基本结束,下一步是走向做事”;核心方向是让模型具备自主扩展能力
杨植麟 月之暗面 “扩展定律本质是把能源转化为智能”;优秀模型承载价值观与品味
林俊旸 阿里巴巴 打造"全能智能体";中国团队3-5年内全球领先概率约20%
姚顺雨 腾讯(新首席AI科学家) AI行业正经历分化:垂直整合与分层应用两种模式各走各路

关于如何让AI拥有真正的"进取心"和"学习心",行业内在强化学习的**内在动机(Intrinsic Motivation)**研究中找到了最有希望的方向——通过好奇心驱动(预测误差最大化)和赋能驱动(状态空间覆盖最大化)来产生自主探索行为。DeepSeek的GRPO方法证明了纯RL可自发涌现推理能力。

11.4 保持"进取心"和"学习心"的可行架构

内驱力模型的可能架构:

┌────────────────────────────────────────┐
│           内在驱动力系统                │
│                                        │
│  ┌──────┐  ┌──────┐  ┌──────┐        │
│  │好奇心│  │成就感│  │安全感│  ...    │
│  │预测误差│  │目标达成│  │不确定性│        │
│  └──┬───┘  └──┬───┘  └──┬───┘        │
│     │         │         │              │
│     ▼         ▼         ▼              │
│  ┌─────────────────────────┐          │
│  │   价值函数(Value Fn)    │          │
│  │   V(s) = Σwᵢ·driveᵢ    │          │
│  └───────────┬─────────────┘          │
│              │                         │
│              ▼                         │
│  ┌─────────────────────────┐          │
│  │   目标生成器             │          │
│  │   选择最大化V(s)的行动   │          │
│  └─────────────────────────┘          │
└────────────────────────────────────────┘

12. 🔮 记忆恢复术——参数黑匣子的逆变换

12.1 核心难题

如果记忆以巨量参数+向量方式存储,如何将这些高维、不可直接解读的表示恢复为人类可理解的形式?

参数化记忆(不可读)          可交互形式(可读)
┌──────────────┐           ┌──────────────┐
│ W₁,W₂,...,Wₙ │  ──→ ?  │ 文字/图表/图片 │
│ v₁,v₂,...,vₖ │           │ 视频/3D空间   │
└──────────────┘           └──────────────┘

12.2 现有方法

方法 输入 输出 原理 中文说明
探针(Probing) 中间层向量 分类标签/属性 训练轻量分类器读取向量中的信息 线性探针
逆向生成 隐藏状态 文本 用LM Head将向量解码为文本 直接解码
特征可视化 注意力/梯度 热力图 显示模型"关注"了什么 可视化分析
机械可解释性 神经元激活 概念标签 识别每个神经元响应的语义概念 Mechanistic Interpretability
知识三元组提取 FFN层 (主语,关系,宾语) 从FFN的Key-Value对中提取结构化知识 知识图谱提取

12.3 稀疏自编码器(SAE)——Anthropic的特征字典

美国AI公司Anthropic在2024年发表的突破性研究中,使用**稀疏自编码器(Sparse Autoencoder, SAE)**将中间层向量分解为可解释的"特征":

  • 从一个隐藏层中提取了数百万个可解释特征
  • 每个特征对应一个人类可理解的概念(如"背叛"、“咖啡”、“递归算法”)
  • 2026年,Anthropic发现了171个"情绪向量"——类似喜悦、恐惧、悲伤等状态的表征

📖 来源:Anthropic, “Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet”, 2024. transformer-circuits.pub
(中文:Anthropic,《扩展单语义性:从Claude 3中提取可解释特征》,2024)

12.4 做这个方向的机构

机构 国别 方向 代表成果
Anthropic 美国 机械可解释性 SAE特征提取;171个情绪向量
OpenAI 美国 知识编辑+提取 ROME/MEMIT方法
Google DeepMind 美国 因果追踪 逐层追踪知识存储位置
清华大学 中国 知识神经元定位 知识在FFN中的精确定位技术
智源研究院(BAAI) 中国 多模态可解释AI 2026年在Nature发表"通用大脑"研究
北京大学 中国 神经网络可解释性 稀疏自编码器研究
上海AI实验室 中国 大模型可解释性 书生通用大模型可解释性分析
Numenta 美国 千脑理论 皮层柱的功能解释

13. 🧩 大模型 + 个体记忆 + 记忆可恢复——三位一体的AI

13.1 完整架构蓝图

┌───────────────────────────────────────────────────┐
│              三位一体AI架构                          │
│                                                     │
│  ┌───────────────────────────────────────────────┐ │
│  │  Layer 1: 基础大模型(冻结/共享)                │ │
│  │  - 通用知识和推理能力                           │ │
│  │  - 代表:DeepSeek/Qwen/GLM等                    │ │
│  │  - 中国开源模型优势:可私有化部署              │ │
│  └─────────────────────┬─────────────────────────┘ │
│                        │                           │
│  ┌─────────────────────┴─────────────────────────┐ │
│  │  Layer 2: 个体记忆层(参数+向量)                │ │
│  │  - LoRA适配器:个人偏好/风格/知识               │ │
│  │  - 向量数据库:个人经历/文档/对话               │ │
│  │  - 知识图谱:人物关系/时间线/因果链             │ │
│  │  - 记忆管理器(MemOS):增删改+遗忘+压缩          │ │
│  └─────────────────────┬─────────────────────────┘ │
│                        │                           │
│  ┌─────────────────────┴─────────────────────────┐ │
│  │  Layer 3: 记忆恢复层(可解释+可交互)            │ │
│  │  - 探针网络:向量→概念标签                      │ │
│  │  - 逆向生成:向量→文字/图片/视频                │ │
│  │  - 特征可视化:注意力→热力图                    │ │
│  │  - 交互界面:用户可查询/修改/删除记忆            │ │
│  └───────────────────────────────────────────────┘ │
└───────────────────────────────────────────────────┘

13.2 做这个方向的公司和进展(按综合能力排序)

公司/项目 国别 Layer 1 Layer 2 Layer 3 综合进度
OpenAI(ChatGPT) 美国 ★★★★★ GPT-5.5 ★★★☆☆ 向量记忆 ★★★☆☆ 可查看/删除 ★★★★☆
Google(Gemini) 美国 ★★★★★ Gemini 3.1 Ultra ★★★★☆ Titans记忆架构 ★★★☆☆ ★★★★★
Anthropic(Claude) 美国 ★★★★★ Claude Opus 4.7 ★★★☆☆ MEMORY.md ★★★★☆ 透明可编辑 ★★★★☆
深度求索(DeepSeek) 中国 ★★★★★ V4/R1 ★★★☆☆ 后训练优化 ★★☆☆☆ ★★★★☆
字节跳动(豆包) 中国 ★★★★☆ 豆包 ★★★★☆ RL记忆优化 ★★☆☆☆ ★★★★☆
记忆张量(MemOS) 中国 多模型 ★★★★☆ 参数化+激活+明文三层 ★★☆☆☆ 探索中 ★★★★☆
智谱AI(清言) 中国 ★★★★☆ GLM-5.2 ★★★☆☆ 对话记忆 ★★☆☆☆ ★★★☆☆
阿里巴巴(通义千问) 中国 ★★★★★ Qwen3.5 ★★★☆☆ 记忆增强 ★★☆☆☆ ★★★☆☆
月之暗面(Kimi) 中国 ★★★★☆ K2.6 ★★★☆☆ 长上下文 ★★☆☆☆ ★★★☆☆

13.3 当前差距与未来方向

缺失能力 当前方案 需要突破
真正参数级个人记忆 LoRA微调(成本高) 超低成本个人LoRA训练
记忆完全可解释 SAE特征提取(学术阶段) 实时全量特征解码
主动记忆整理 人工触发/A-MEM自动 自主"做梦"式记忆重组(智谱唐杰提的"会做梦的机器")
情感记忆 情绪向量绑定+记忆权重
跨模态记忆 文本为主 文字+图片+语音+视频统一编码
记忆交易/共享 MemOS计划中 记忆体标准化+交易市场

14. 📖 附录:关键术语表

术语 英文 简要解释
变换器架构 Transformer 2017年提出的神经网络架构,基于自注意力机制,是所有大模型的基础
参数 Parameter 模型中的可学习数值,通常为浮点数
向量 Vector 一组有序数字,如[0.3, -1.2, 0.8, …],用于表示语义
嵌入/词向量 Embedding 将文字/图片转为向量的过程
自注意力 Self-Attention 让序列中每个位置能"看到"所有其他位置的机制
低秩适配 LoRA 只训练少量参数就能微调大模型
混合专家 MoE 将模型拆分为多个专家子网络,按需激活
检索增强生成 RAG 从外部知识库检索信息注入上下文
前馈网络 FFN Transformer中每层的全连接部分
键值缓存 KV Cache 缓存注意力中的Key和Value,加速推理
灾难性遗忘 Catastrophic Forgetting 学习新知识时忘记旧知识的现象
稀疏自编码器 SAE 用于分解和解释模型内部表示
缩放定律 Scaling Law 模型能力随参数/数据/计算增长的规律
词元 Token 文本被分割后的最小处理单元,约等于一个中文字或英文子词
强化学习 Reinforcement Learning (RL) 通过奖励信号训练智能体的方法
人类反馈强化学习 RLHF 用人类偏好作为奖励信号的微调方法
分组相对策略优化 GRPO DeepSeek提出的纯RL训练方法,不需要人工标注
脉冲神经网络 SNN (Spiking Neural Network) 模仿生物神经元脉冲行为的第三代神经网络
长时程增强/抑制 LTP/LTD 突触连接强度长期增强或减弱的生物机制
强人工智能 AGI 能够在几乎所有任务上达到或超越人类水平的AI
内在动机 Intrinsic Motivation AI自主产生探索和学习的内部驱动力
世界模型 World Model AI对物理世界和因果关系的内部表征

15. 📚 参考文献与进阶阅读

📖 阅读建议:带"⭐"的是入门推荐,带"⭐⭐"的是进阶必读,带"⭐⭐⭐"的是专业研究。所有英文论文均附带中文译名。

A. 奠基性论文(按时间顺序)

  1. ⭐⭐⭐ Vaswani, A., Shazeer, N., Parmar, N., et al. “Attention Is All You Need.” Advances in Neural Information Processing Systems (NeurIPS), 2017. arXiv:1706.03762

中文:瓦斯瓦尼等,《注意力就是你所需的一切》,NeurIPS 2017。Transformer架构的诞生,一切大模型的基石。

  1. ⭐⭐⭐ Bahdanau, D., Cho, K., Bengio, Y. “Neural Machine Translation by Jointly Learning to Align and Translate.” International Conference on Learning Representations (ICLR), 2015. arXiv:1409.0473

中文:巴达诺等,《通过联合学习对齐与翻译的神经机器翻译》,ICLR 2015。注意力机制的前身。

  1. ⭐⭐ Devlin, J., Chang, M.W., Lee, K., Toutanova, K. “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding.” NAACL, 2019. arXiv:1810.04805

中文:德夫林等,《BERT:面向语言理解的深度双向变换器预训练》,NAACL 2019。

  1. ⭐⭐ Brown, T., Mann, B., Ryder, N., et al. “Language Models are Few-Shot Learners.” NeurIPS, 2020. arXiv:2005.14165

    中文:布朗等,《语言模型是少样本学习者》,NeurIPS 2020。GPT-3论文,缩放定律的里程碑验证。

B. 高效微调与持续学习

  1. ⭐⭐ Hu, E.J., Shen, Y., Wallis, P., et al. “LoRA: Low-Rank Adaptation of Large Language Models.” ICLR, 2022. arXiv:2106.09685

中文:胡等,《LoRA:大语言模型的低秩适配》,ICLR 2022。个人化模型的关键技术。

  1. ⭐⭐ Dettmers, T., Pagnoni, A., Holtzman, A., Zettlemoyer, L. “QLoRA: Efficient Finetuning of Quantized LLMs.” NeurIPS, 2023. arXiv:2305.14314

中文:德特默斯等,《QLoRA:量化大语言模型的高效微调》,NeurIPS 2023。

  1. ⭐ SD-LoRA. “Directional Low-Rank Adaptation for Continual Learning.” ICLR 2025 Oral. arXiv:2410.05143

    中文:《方向性低秩适配:面向持续学习的SD-LoRA》,ICLR 2025口头报告。

C. 中国大模型(重点推荐)

  1. ⭐⭐⭐ DeepSeek-AI. “DeepSeek-V3 Technical Report.” 2024. arXiv:2412.19437

中文:深度求索AI,《DeepSeek-V3技术报告》,2024。中国开源MoE模型的里程碑。

  1. ⭐⭐⭐ DeepSeek-AI. “DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning.” 2025. arXiv:2501.12948

中文:深度求索AI,《DeepSeek-R1:通过强化学习激发大语言模型的推理能力》,2025。纯RL训练推理的突破。

  1. ⭐⭐ DeepSeek-AI. “DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models.” 2024. arXiv:2401.06066

中文:深度求索AI,《DeepSeekMoE:走向混合专家语言模型的极致专家专业化》,2024。

  1. ⭐⭐ Qwen Team (Alibaba). “Qwen Technical Report.” GitHub

中文:通义千问团队(阿里巴巴),《通义千问技术报告》。

  1. ⭐⭐ Zhipu AI. “ChatGLM: A Family of Large Language Models from GLM-130B to GLM-5.2.” GitHub

    中文:智谱AI/清华大学,《ChatGLM:从GLM-130B到GLM-5.2的大语言模型家族》。

D. 记忆与知识编辑

  1. ⭐⭐ Meng, K., Bau, D., Andonian, A., Belinkov, Y. “Locating and Editing Factual Associations in GPT.” NeurIPS, 2022. arXiv:2202.05262

中文:孟等,《定位与编辑GPT中的事实性关联》,NeurIPS 2022。ROME方法。

  1. ⭐⭐ Meng, K., Sharma, A.S., Andonian, A., Belinkov, Y., Bau, D. “Mass-Editing Memory in a Transformer.” ICLR, 2023. arXiv:2210.07529

中文:孟等,《变换器中的批量记忆编辑》,ICLR 2023。MEMIT方法。

  1. ⭐⭐ A-MEM. “Agentic Memory for LLM Agents.” 2025. arXiv:2502.12110

中文:《智能体记忆:大语言模型智能体的记忆系统》,2025。

  1. ⭐⭐ 李志宇. “从上下文到长期记忆:大模型记忆工程的架构设计与实践.” QCon全球软件开发大会, 2025. InfoQ

中国记忆张量公司CTO的实践分享,MemOS记忆操作系统的完整设计思路。

  1. ⭐ Mem0. Open-source memory layer for AI agents. GitHub

中文:Mem0开源项目,AI智能体的记忆层。

  1. ⭐ Letta (MemGPT). Memory management framework for LLM agents. GitHub

中文:Letta开源项目(原MemGPT),大语言模型智能体的记忆管理框架。

  1. ⭐ 记忆张量(MemTensor). MemOS开源框架. GitHub

    中文:上海记忆张量公司,全球首个大模型记忆操作系统。

E. 可解释性与特征提取

  1. ⭐⭐ Anthropic. “Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet.” 2024. 在线阅读

中文:Anthropic,《扩展单语义性:从Claude 3 Sonnet中提取可解释特征》,2024。

  1. ⭐⭐ Anthropic. “On the Biology of a Large Language Model.” 2025. 在线阅读

    中文:Anthropic,《大语言模型的生物学》,2025。171个情绪向量的发现。

F. 神经科学与脑启发AI

  1. ⭐⭐ Kandel, E.R., Schwartz, J.H., Jessell, T.M., Siegelbaum, S.A., Hudspeth, A.J. Principles of Neural Science, 6th Edition. McGraw-Hill, 2021.

中文:坎德尔等,《神经科学原理》第6版,麦格劳-希尔出版社,2021。神经科学圣经级教材。

  1. ⭐⭐⭐ Herculano-Houzel, S. “The Human Brain in Numbers: A Linearly Scaled-up Primate Brain.” Frontiers in Human Neuroscience, 2009.

中文:赫库拉诺-乌泽尔,《数字中的大脑:一个线性放大的灵长类大脑》,《人类神经科学前沿》,2009。860亿神经元的权威来源。

  1. ⭐⭐ Bartol, T.M., Bromer, C., Kinney, J., et al. “Nanoconnectomic Upper Bound on the Variability of Synaptic Plasticity.” eLife, 2015.

中文:巴托尔等,《纳米连接组学对突触可塑性变异性的上界估计》,《eLife》,2015。

  1. ⭐ LeCun, Y. “A Path Towards Autonomous Machine Intelligence.” Open Review, 2022. 链接

    中文:杨立昆,《通向自主机器智能之路》,2022。世界模型的理论框架。

G. 注意力与架构优化

  1. ⭐⭐ Dao, T., Fu, D.Y., Ermon, S., Rudra, A., Ré, C. “FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness.” NeurIPS, 2022. arXiv:2205.14135

中文:道等,《闪存注意力:具有IO感知的快速且内存高效的精确注意力》,NeurIPS 2022。

  1. ⭐⭐ Lewis, P., Perez, E., Piktus, A., et al. “Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks.” NeurIPS, 2020. arXiv:2005.11401

    中文:刘易斯等,《面向知识密集型NLP任务的检索增强生成》,NeurIPS 2020。RAG技术的奠基论文。

H. 中文推荐书籍与资料

  1. ⭐⭐ 邱锡鹏. 《神经网络与深度学习》. 机械工业出版社, 2020. 在线版

复旦大学邱锡鹏教授著,中文深度学习经典教材,适合理工科本科生入门。

  1. ⭐ 李航. 《统计学习方法》第2版. 清华大学出版社, 2019.

中文机器学习领域最经典的教材之一。

  1. ⭐ 周志华. 《机器学习》. 清华大学出版社, 2016.

“西瓜书”,中国AI领域最知名的入门教材。

  1. ⭐⭐ 通向AGI之路——2025全球人工智能展望报告

2025年AGI领域全面展望。

  1. ⭐ 新华网. “2026年中国AI发展趋势前瞻.” 2026年1月. 链接

    官方视角的2026年中国AI发展路线图。

I. 论文检索平台(方便你自学)

平台 网址 特点
arXiv https://arxiv.org 全球最大免费论文预印本库,AI论文首发地
中国知网(CNKI) https://www.cnki.net 中文学术论文最全平台
谷歌学术 https://scholar.google.com 跨语言论文检索
Papers with Code https://paperswithcode.com 论文+代码,看效果最直观
Hugging Face https://huggingface.co 开源模型、数据集、论文讨论
阿里魔搭社区 https://modelscope.cn 中国最大AI模型开源社区
机器之心 https://www.jiqizhixin.com 中文AI前沿资讯与论文解读
量子位 https://www.qbitai.com 中文AI产业新闻与技术追踪

Logo

中国智能体开发者社区,聚焦智能体与大模型开发,提供前沿资讯、实用工具链、开源项目及行业案例。通过技术沙龙、开发者大赛等活动,促进经验交流与协作,助力开发者快速构建创新智能应用。

更多推荐