开场白:当大模型开始“长脑子”

2025 年,大模型竞争进入“后参数时代”——单卡 100B 已触顶,大家拼的不再是“谁更大”,而是“谁记得更久、更准、更会想”。
过去一年,我几乎把 arXiv 当爽文追:MemGPT、MemoryBank、A-Mem、MemOS、Memory-R1、Memento、Titans……它们不再满足于“上下文加长”,而是把记忆做成操作系统、做成强化学习策略、做成会自己生长的知识树。
今天这篇 5000字长文,带你一次看懂 LLM 记忆技术的“九重境界”。读完你可以:

  1. 给老板讲清技术路线,不再只会说“做 RAG”;
  2. 给团队选型,知道什么时候用分页、什么时候用 RL;
  3. 给投资人画饼,知道下一波创业红利在哪。

一、为什么“记忆”突然成了显学?

痛点 2025 年真实案例
128 k 窗口用不满 Lost in Middle 实验显示,GPT-4o 在 90 k 处召回率 < 40 %
RAG 单次补丁 某金融客服上线 3 个月后,知识库 40 % 过期,答案自相矛盾
参数知识固化 医疗 APP 换新指南,重训一次 700 万, CFO 当场血压拉满
多轮一致 社交 AI 伴侣昨天叫用户“宝贝”,今天问“您贵姓”——社死现场

一句话:参数记忆太慢、RAG 太蠢、窗口太短。于是,九大门派各自出招。


二、九大门派兵器谱

我把 20 篇论文拆成 9 条路线,画成一张「兵器谱」。先上全图,再逐派拆解。

(建议收藏,以后开会直接甩 PPT)

门派 代表系统 核心隐喻 2025 年关键词
① 分页派 MemGPT 操作系统换页 70 % 阈值、heartbeat
② 遗忘派 MemoryBank 艾宾浩斯曲线 记忆强度、指数衰减
③ 卡片派 A-Mem Zettelkasten 卡片盒 双向链接、知识演化
④ OS 派 MemOS 记忆即资源 MemCube、调度器、生命周期
⑤ RL 派 Memory-R1 记忆管理 = 策略游戏 PPO/GRPO、ADD/UPDATE/DELETE
⑥ 案例派 Memento 经验回放 CBR、M-MDP、Soft Q
⑦ 树搜索派 CoAT MCTS + 联想记忆 128 步长推理 0 额外训练
⑧ 慢思维派 OmniThink 扩展-反思双循环 信息树、概念池、Knowledge Density
⑨ 在线学习派 Titans 可写内存模块 1 步梯度更新,100 M 参数当 LTM

三、门派详解(含公式、代码、八卦)

① 分页派:MemGPT——把 LLM 当 Linux 内核

核心公式:无公式,全是系统调用
self.edit_memory('working', old='用户姓名:张三', new='用户姓名:张三(VIP)')

一句话原理
prompt = 物理内存(8 k)
external DB = 磁盘(∞)
LLM 自己当 page-fault handler,内存压力 > 70 % 就 page_out()

2025 年落地 Tips

  • 70 % 阈值最香,调到 90 % 会丢关键事实。
  • request_heartbeat=true 让模型“多想一步”,在客服场景把转化率 + 4.3 %。
  • 别在 32 k 窗口机型用,换页开销反而更大。

② 遗忘派:MemoryBank——让 AI 也“学而时习之”

核心公式
记忆强度
S(t)=S0⋅e−t/τ+∑i=1nδ(t−ti) S(t) = S_0 \cdot e^{-t/\tau} + \sum_{i=1}^n \delta(t-t_i) S(t)=S0et/τ+i=1nδ(tti)
每次召回强度 +1,τ 控制遗忘速度。

一句话原理
把人类“越用越记得”搬到向量数据库,SiliconFriend 实测 10 天对话后,用户亲密度打分 + 18 %。

2025 年落地 Tips

  • τ 按业务设置:客服 7 天,伴侣 30 天,医疗 365 天。
  • 中英双语用不同编码器(MiniLM vs text2vec),别混用。
  • 敏感词先过脱敏模型,再写库,合规审计一次过。

③ 卡片派:A-Mem——知识图谱的“自生长”

核心公式
相似度筛选 + LLM 建链
sn,j=en⋅ej∥en∥∥ej∥ s_{n,j} = \frac{\mathbf{e}_n \cdot \mathbf{e}_j}{\|\mathbf{e}_n\| \|\mathbf{e}_j\|} sn,j=en∥∥ejenej
Top-k 候选 → LLM 软决策是否双向链接。

一句话原理
每来一条新记忆,先向量找“邻居”,再让 LLM 决定要不要“交朋友”,旧卡片可更新标签,实现“知识回环”。

2025 年落地 Tips

  • k=5 最平衡,k>20 噪声爆炸。
  • 链接数 > 15 的卡片升级为“枢纽”,单独做 LoRA 微调,推理命中率 + 9 %。
  • 用 Neo4j 存链接,可视化后给老板看,融资成功率 ×2。

④ OS 派:MemOS——记忆即文件,权限、版本、迁移一条龙

核心数据结构:MemCube

{
  "meta": {"access": ["user_483"], "ttl": "2025-12-31", "watermark": "sha256(xxx)"},
  "payload": {"type": "activation", "content": "KV-cache of travel偏好"}
}

一句话原理
把记忆抽象成系统资源,支持 plaintext → KV → LoRA 三段演化,跨模型、跨平台、带审计。

2025 年落地 Tips

  • 高频 KV 走本地 Redis,低频归档到 S3,成本降 70 %。
  • 三元权限(用户×记忆×上下文)+ 自动脱敏,通过 SOC2 审计。
  • 旅行 APP 实测:用户换手机,3 秒完成记忆迁移,留存率 + 11 %。

⑤ RL 派:Memory-R1——让模型自己学会“记住/忘记”

核心算法:GRPO
目标函数
J(θ)=Eτ∼πθ[∑tγtRt⋅KL(πθ∥πref)] J(\theta) = \mathbb{E}_{\tau \sim \pi_\theta} \left[ \sum_t \gamma^t R_t \cdot \text{KL}\left(\pi_\theta \| \pi_{\text{ref}}\right) \right] J(θ)=Eτπθ[tγtRtKL(πθπref)]
奖励 = 最终答案 Exact Match,仅 152 条数据就能收敛。

一句话原理
双智能体:Manager 决定 ADD/UPDATE/DELETE,Answer Agent 做 Memory Distillation,端到端 RL 训练,F1 相对 Mem0 提升 48 %。

2025 年落地 Tips

  • 先用 GPT-4o 蒸馏 500 条伪标签,再喂 GRPO,数据量 ×3 零成本。
  • 多跳推理任务收益最大,客服 FAQ 场景收益有限。
  • 显存紧张时用 LoRA+GRPO,显存降 40 %,效果持平。

⑥ 案例派:Memento——不微调模型,只微调“经验库”

核心公式:M-MDP
策略
π(a∣s,M)=∑c∈Mμ(c∣s,M)⋅pLLM(a∣s,c) \pi(a|s, M) = \sum_{c \in M} \mu(c|s, M) \cdot p_{\text{LLM}}(a|s, c) π(as,M)=cMμ(cs,M)pLLM(as,c)
用 Soft Q-Learning 只更新检索策略 μ,LLM 冻结。

一句话原理
把每一次任务轨迹存成“案例”,新任务来了先检索相似案例,再让 LLM 复用+修正,GAIA 基准刷到 79.4 %,成本仅为微调方案的 1/20。

2025 年落地 Tips

  • K=4 案例最香,>8 噪声主导。
  • 案例用 JSON+gzip 存 S3,1 亿条≈ 300 GB, Glacier 深归档月费 70 刀。
  • OOD 任务提升 4.7~9.6 %,适合做“长尾知识”冷启动。

⑦ 树搜索派:CoAT——把 MCTS 做成“联想记忆”外挂

一句话原理
128 步长推理不微调:MCTS 展开时,用联想记忆把“之前死过的分支”缓存成向量,下次遇到相似节点直接剪枝,速度 ×3,准确率 + 6 %。

2025 年落地 Tips

  • 数学证明题、代码生成场景 ROI 最高。
  • 节点 embedding 用最后 4 层 hidden state 平均,512 dim 够用了。
  • 剪枝阈值 0.85 最平衡,>0.9 会误杀正确答案。

⑧ 慢思维派:OmniThink——让 AI 像学者一样“写综述”

新指标:Knowledge Density(KD)
KD=Numinfo_sentencesNumtotal_sentences \text{KD} = \frac{\text{Num}_\text{info\_sentences}}{\text{Num}_\text{total\_sentences}} KD=Numtotal_sentencesNuminfo_sentences
OmniThink 在 WildSeek 基准 KD=22.31,比 STORM 高 15 %。

一句话原理
“扩展-反思”双循环:信息树横向拉宽知识边界,概念池纵向提炼认知,适合写白皮书、研报、知乎长文。

2025 年落地 Tips

  • 概念池大小 200 节点是拐点,再涨收益递减。
  • 中文用 Baike+微信公众号文章做检索源,KD 额外 + 1.2。
  • 生成 5000 字长文成本 $0.8,比人类作者便宜 100 倍。

⑨ 在线学习派:Titans——内存可梯度更新,1 步记住你

核心模块:LTM(Long-Term Memory)
LTMt+1=LTMt−η∇LTML \text{LTM}_{t+1} = \text{LTM}_t - \eta \nabla_{\text{LTM}} \mathcal{L} LTMt+1=LTMtηLTML
1 个 step 就完成知识注入,100 M 参数专门当“外置海马体”。

一句话原理
把记忆做成可写矩阵,推理时做交叉注意力,学完即插即拔,不掉基座模型权重。

2025 年落地 Tips

  • 别在 7B 模型下用,显存占 1.5×,性价比低;30B 以上才划算。
  • 学习率 1e-4 最稳,>1e-3 会灾难性遗忘基座知识。
  • 适合做“个人第二大脑”,用户换手机 LTM 文件 6 G 直接拷走。

四、一张选型决策表(收藏版)

场景 推荐门派 禁用门派 理由
客服 FAQ 分页派 在线学习派 成本低,答案确定,无需梯度写
AI 伴侣 遗忘派 + 卡片派 RL 派 需要情感一致性,RL 容易“学坏”
医疗长文档 OS 派 + 慢思维派 分页派 法规版本管理必须,慢思维提深度
代码生成 树搜索派 遗忘派 需要精准逻辑,遗忘会丢接口版本
投研写作 慢思维派 案例派 要新颖+深度,案例派容易八股
个人助理 在线学习派 + OS 派 树搜索派 随时写用户偏好,树搜索延迟高

五、创业&投资风向标(私货)

  1. 记忆即服务(Memory-as-a-Service)
    MemOS 的 MemCube 协议一旦开源,会出现“记忆中间件”创业公司,帮 B 端做跨模型记忆迁移,估值模型=Snowflake÷2。

  2. RL 记忆管理
    Memory-R1 证明 152 条数据就能训,垂直 SaaS 可以用极少标注把记忆操作做到 90 % 准确率,适合做“合规审计记忆”“医疗病历记忆”。

  3. 个人第二大脑
    Titans 的 LTM 文件 6 G 可离线带走,手机端跑 4 bit 量化后 1.5 G,ToC 收费模式清晰:订阅 + 云同步,参考 Notion 年费 $96。

  4. 中文记忆生态
    中文公开向量库稀缺,谁能做出“百度+公众号+知乎”三源合一的脱敏记忆库,谁就是下一个“中文 ChatGPT 时刻”。


六、写在最后:记忆是通往 AGI 的暗线

参数 scaling 已摸到天花板,记忆 scaling 才刚起步。
当模型可以“记住你是谁、写过什么、说过什么、错过什么”,它就不再是工具,而是数字生命的雏形。

愿我们在追求更长、更深、更准的记忆时,也记得给用户留一把“遗忘钥匙”。
毕竟,会遗忘,才更像人。

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐