从 MemGPT 到 Titans：2025 年 LLM 记忆系统全景复盘

2025年大模型记忆技术进入"后参数时代"，九大门派各显神通：技术路线：从分页派、遗忘派到慢思维派，形成完整技术谱系，涵盖操作系统式换页、遗忘曲线、知识图谱自生长等创新方法。应用场景：各派针对不同场景优化，如客服FAQ适合分页派，AI伴侣需要遗忘派+卡片派组合，医疗文档则需OS派+慢思维派。核心优势：突破传统RAG局限，解决参数固化、记忆不一致等痛点，实现记忆的可管理、可

Jay Kay

1325人浏览 · 2025-09-13 13:25:42

Jay Kay · 2025-09-13 13:25:42 发布

开场白：当大模型开始“长脑子”

2025 年，大模型竞争进入“后参数时代”——单卡 100B 已触顶，大家拼的不再是“谁更大”，而是“谁记得更久、更准、更会想”。
过去一年，我几乎把 arXiv 当爽文追：MemGPT、MemoryBank、A-Mem、MemOS、Memory-R1、Memento、Titans……它们不再满足于“上下文加长”，而是把记忆做成操作系统、做成强化学习策略、做成会自己生长的知识树。
今天这篇 5000字长文，带你一次看懂 LLM 记忆技术的“九重境界”。读完你可以：

给老板讲清技术路线，不再只会说“做 RAG”；
给团队选型，知道什么时候用分页、什么时候用 RL；
给投资人画饼，知道下一波创业红利在哪。

一、为什么“记忆”突然成了显学？

痛点	2025 年真实案例
128 k 窗口用不满	Lost in Middle 实验显示，GPT-4o 在 90 k 处召回率 < 40 %
RAG 单次补丁	某金融客服上线 3 个月后，知识库 40 % 过期，答案自相矛盾
参数知识固化	医疗 APP 换新指南，重训一次 700 万， CFO 当场血压拉满
多轮一致	社交 AI 伴侣昨天叫用户“宝贝”，今天问“您贵姓”——社死现场

一句话：参数记忆太慢、RAG 太蠢、窗口太短。于是，九大门派各自出招。

二、九大门派兵器谱

我把 20 篇论文拆成 9 条路线，画成一张「兵器谱」。先上全图，再逐派拆解。

（建议收藏，以后开会直接甩 PPT）

门派	代表系统	核心隐喻	2025 年关键词
① 分页派	MemGPT	操作系统换页	70 % 阈值、heartbeat
② 遗忘派	MemoryBank	艾宾浩斯曲线	记忆强度、指数衰减
③ 卡片派	A-Mem	Zettelkasten 卡片盒	双向链接、知识演化
④ OS 派	MemOS	记忆即资源	MemCube、调度器、生命周期
⑤ RL 派	Memory-R1	记忆管理 = 策略游戏	PPO/GRPO、ADD/UPDATE/DELETE
⑥ 案例派	Memento	经验回放	CBR、M-MDP、Soft Q
⑦ 树搜索派	CoAT	MCTS + 联想记忆	128 步长推理 0 额外训练
⑧ 慢思维派	OmniThink	扩展-反思双循环	信息树、概念池、Knowledge Density
⑨ 在线学习派	Titans	可写内存模块	1 步梯度更新，100 M 参数当 LTM

三、门派详解（含公式、代码、八卦）

① 分页派：MemGPT——把 LLM 当 Linux 内核

核心公式：无公式，全是系统调用
self.edit_memory('working', old='用户姓名：张三', new='用户姓名：张三（VIP）')

一句话原理
prompt = 物理内存（8 k）
external DB = 磁盘（∞）
LLM 自己当 page-fault handler，内存压力 > 70 % 就 page_out()。

2025 年落地 Tips

70 % 阈值最香，调到 90 % 会丢关键事实。
request_heartbeat=true 让模型“多想一步”，在客服场景把转化率 + 4.3 %。
别在 32 k 窗口机型用，换页开销反而更大。

② 遗忘派：MemoryBank——让 AI 也“学而时习之”

核心公式
记忆强度
$S_0 \cdot e^{-t/\tau} + \sum_{i=1}^n \delta(t-t_i)$
每次召回强度 +1，τ 控制遗忘速度。

一句话原理
把人类“越用越记得”搬到向量数据库，SiliconFriend 实测 10 天对话后，用户亲密度打分 + 18 %。

2025 年落地 Tips

τ 按业务设置：客服 7 天，伴侣 30 天，医疗 365 天。
中英双语用不同编码器（MiniLM vs text2vec），别混用。
敏感词先过脱敏模型，再写库，合规审计一次过。

③ 卡片派：A-Mem——知识图谱的“自生长”

核心公式
相似度筛选 + LLM 建链
$s_{n,j} = \frac{\mathbf{e}_n \cdot \mathbf{e}_j}{\|\mathbf{e}_n\| \|\mathbf{e}_j\|}$
Top-k 候选 → LLM 软决策是否双向链接。

一句话原理
每来一条新记忆，先向量找“邻居”，再让 LLM 决定要不要“交朋友”，旧卡片可更新标签，实现“知识回环”。

2025 年落地 Tips

k=5 最平衡，k>20 噪声爆炸。
链接数 > 15 的卡片升级为“枢纽”，单独做 LoRA 微调，推理命中率 + 9 %。
用 Neo4j 存链接，可视化后给老板看，融资成功率 ×2。

④ OS 派：MemOS——记忆即文件，权限、版本、迁移一条龙

核心数据结构：MemCube

{
  "meta": {"access": ["user_483"], "ttl": "2025-12-31", "watermark": "sha256(xxx)"},
  "payload": {"type": "activation", "content": "KV-cache of travel偏好"}
}

一句话原理
把记忆抽象成系统资源，支持 plaintext → KV → LoRA 三段演化，跨模型、跨平台、带审计。

2025 年落地 Tips

高频 KV 走本地 Redis，低频归档到 S3，成本降 70 %。
三元权限（用户×记忆×上下文）+ 自动脱敏，通过 SOC2 审计。
旅行 APP 实测：用户换手机，3 秒完成记忆迁移，留存率 + 11 %。

⑤ RL 派：Memory-R1——让模型自己学会“记住/忘记”

核心算法：GRPO
目标函数
$J(\theta) = \mathbb{E}_{\tau \sim \pi_\theta} \left[ \sum_t \gamma^t R_t \cdot \text{KL}\left(\pi_\theta \| \pi_{\text{ref}}\right) \right]$
奖励 = 最终答案 Exact Match，仅 152 条数据就能收敛。

一句话原理
双智能体：Manager 决定 ADD/UPDATE/DELETE，Answer Agent 做 Memory Distillation，端到端 RL 训练，F1 相对 Mem0 提升 48 %。

2025 年落地 Tips

先用 GPT-4o 蒸馏 500 条伪标签，再喂 GRPO，数据量 ×3 零成本。
多跳推理任务收益最大，客服 FAQ 场景收益有限。
显存紧张时用 LoRA+GRPO，显存降 40 %，效果持平。

⑥ 案例派：Memento——不微调模型，只微调“经验库”

核心公式：M-MDP
策略
$\pi(a|s, M) = \sum_{c \in M} \mu(c|s, M) \cdot p_{\text{LLM}}(a|s, c)$
用 Soft Q-Learning 只更新检索策略 μ，LLM 冻结。

一句话原理
把每一次任务轨迹存成“案例”，新任务来了先检索相似案例，再让 LLM 复用+修正，GAIA 基准刷到 79.4 %，成本仅为微调方案的 1/20。

2025 年落地 Tips

K=4 案例最香，>8 噪声主导。
案例用 JSON+gzip 存 S3，1 亿条≈ 300 GB， Glacier 深归档月费 70 刀。
OOD 任务提升 4.7~9.6 %，适合做“长尾知识”冷启动。

⑦ 树搜索派：CoAT——把 MCTS 做成“联想记忆”外挂

一句话原理
128 步长推理不微调：MCTS 展开时，用联想记忆把“之前死过的分支”缓存成向量，下次遇到相似节点直接剪枝，速度 ×3，准确率 + 6 %。

2025 年落地 Tips

数学证明题、代码生成场景 ROI 最高。
节点 embedding 用最后 4 层 hidden state 平均，512 dim 够用了。
剪枝阈值 0.85 最平衡，>0.9 会误杀正确答案。

⑧ 慢思维派：OmniThink——让 AI 像学者一样“写综述”

新指标：Knowledge Density（KD）
$KD=Numinfo_sentencesNumtotal_sentences \text{KD} = \frac{\text{Num}_\text{info\_sentences}}{\text{Num}_\text{total\_sentences}}$
OmniThink 在 WildSeek 基准 KD=22.31，比 STORM 高 15 %。

一句话原理
“扩展-反思”双循环：信息树横向拉宽知识边界，概念池纵向提炼认知，适合写白皮书、研报、知乎长文。

2025 年落地 Tips

概念池大小 200 节点是拐点，再涨收益递减。
中文用 Baike+微信公众号文章做检索源，KD 额外 + 1.2。
生成 5000 字长文成本 $0.8，比人类作者便宜 100 倍。

⑨ 在线学习派：Titans——内存可梯度更新，1 步记住你

核心模块：LTM（Long-Term Memory）
$\text{LTM}_{t+1} = \text{LTM}_t - \eta \nabla_{\text{LTM}} \mathcal{L}$
1 个 step 就完成知识注入，100 M 参数专门当“外置海马体”。

一句话原理
把记忆做成可写矩阵，推理时做交叉注意力，学完即插即拔，不掉基座模型权重。

2025 年落地 Tips

别在 7B 模型下用，显存占 1.5×，性价比低；30B 以上才划算。
学习率 1e-4 最稳，>1e-3 会灾难性遗忘基座知识。
适合做“个人第二大脑”，用户换手机 LTM 文件 6 G 直接拷走。

四、一张选型决策表（收藏版）

场景	推荐门派	禁用门派	理由
客服 FAQ	分页派	在线学习派	成本低，答案确定，无需梯度写
AI 伴侣	遗忘派 + 卡片派	RL 派	需要情感一致性，RL 容易“学坏”
医疗长文档	OS 派 + 慢思维派	分页派	法规版本管理必须，慢思维提深度
代码生成	树搜索派	遗忘派	需要精准逻辑，遗忘会丢接口版本
投研写作	慢思维派	案例派	要新颖+深度，案例派容易八股
个人助理	在线学习派 + OS 派	树搜索派	随时写用户偏好，树搜索延迟高

五、创业&投资风向标（私货）

记忆即服务（Memory-as-a-Service）
MemOS 的 MemCube 协议一旦开源，会出现“记忆中间件”创业公司，帮 B 端做跨模型记忆迁移，估值模型=Snowflake÷2。
RL 记忆管理
Memory-R1 证明 152 条数据就能训，垂直 SaaS 可以用极少标注把记忆操作做到 90 % 准确率，适合做“合规审计记忆”“医疗病历记忆”。
个人第二大脑
Titans 的 LTM 文件 6 G 可离线带走，手机端跑 4 bit 量化后 1.5 G，ToC 收费模式清晰：订阅 + 云同步，参考 Notion 年费 $96。
中文记忆生态
中文公开向量库稀缺，谁能做出“百度+公众号+知乎”三源合一的脱敏记忆库，谁就是下一个“中文 ChatGPT 时刻”。

六、写在最后：记忆是通往 AGI 的暗线

参数 scaling 已摸到天花板，记忆 scaling 才刚起步。
当模型可以“记住你是谁、写过什么、说过什么、错过什么”，它就不再是工具，而是数字生命的雏形。

愿我们在追求更长、更深、更准的记忆时，也记得给用户留一把“遗忘钥匙”。
毕竟，会遗忘，才更像人。

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

火山引擎 ADG 社区

OpenClaw 小白安装指南（Windows版）

（类似一个能自动执行任务的AI机器人），不是游戏。API Key只保存在你本地电脑的加密文件里，不会上传到任何地方。访问：https://github.com/miaoxworld/openclaw-manager/releases。: 一键安装脚本会自动安装Node.js 22+，如果失败，手动下载安装：https://nodejs.org/：在PowerShell中，鼠标右键就是粘贴，不需要按

火山引擎 ADG 社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla