从 MemGPT 到 Titans:2025 年 LLM 记忆系统全景复盘
2025年大模型记忆技术进入"后参数时代",九大门派各显神通: 技术路线:从分页派、遗忘派到慢思维派,形成完整技术谱系,涵盖操作系统式换页、遗忘曲线、知识图谱自生长等创新方法。 应用场景:各派针对不同场景优化,如客服FAQ适合分页派,AI伴侣需要遗忘派+卡片派组合,医疗文档则需OS派+慢思维派。 核心优势:突破传统RAG局限,解决参数固化、记忆不一致等痛点,实现记忆的可管理、可
开场白:当大模型开始“长脑子”
2025 年,大模型竞争进入“后参数时代”——单卡 100B 已触顶,大家拼的不再是“谁更大”,而是“谁记得更久、更准、更会想”。
过去一年,我几乎把 arXiv 当爽文追:MemGPT、MemoryBank、A-Mem、MemOS、Memory-R1、Memento、Titans……它们不再满足于“上下文加长”,而是把记忆做成操作系统、做成强化学习策略、做成会自己生长的知识树。
今天这篇 5000字长文,带你一次看懂 LLM 记忆技术的“九重境界”。读完你可以:
- 给老板讲清技术路线,不再只会说“做 RAG”;
- 给团队选型,知道什么时候用分页、什么时候用 RL;
- 给投资人画饼,知道下一波创业红利在哪。
一、为什么“记忆”突然成了显学?
| 痛点 | 2025 年真实案例 |
|---|---|
| 128 k 窗口用不满 | Lost in Middle 实验显示,GPT-4o 在 90 k 处召回率 < 40 % |
| RAG 单次补丁 | 某金融客服上线 3 个月后,知识库 40 % 过期,答案自相矛盾 |
| 参数知识固化 | 医疗 APP 换新指南,重训一次 700 万, CFO 当场血压拉满 |
| 多轮一致 | 社交 AI 伴侣昨天叫用户“宝贝”,今天问“您贵姓”——社死现场 |
一句话:参数记忆太慢、RAG 太蠢、窗口太短。于是,九大门派各自出招。
二、九大门派兵器谱
我把 20 篇论文拆成 9 条路线,画成一张「兵器谱」。先上全图,再逐派拆解。
(建议收藏,以后开会直接甩 PPT)
| 门派 | 代表系统 | 核心隐喻 | 2025 年关键词 |
|---|---|---|---|
| ① 分页派 | MemGPT | 操作系统换页 | 70 % 阈值、heartbeat |
| ② 遗忘派 | MemoryBank | 艾宾浩斯曲线 | 记忆强度、指数衰减 |
| ③ 卡片派 | A-Mem | Zettelkasten 卡片盒 | 双向链接、知识演化 |
| ④ OS 派 | MemOS | 记忆即资源 | MemCube、调度器、生命周期 |
| ⑤ RL 派 | Memory-R1 | 记忆管理 = 策略游戏 | PPO/GRPO、ADD/UPDATE/DELETE |
| ⑥ 案例派 | Memento | 经验回放 | CBR、M-MDP、Soft Q |
| ⑦ 树搜索派 | CoAT | MCTS + 联想记忆 | 128 步长推理 0 额外训练 |
| ⑧ 慢思维派 | OmniThink | 扩展-反思双循环 | 信息树、概念池、Knowledge Density |
| ⑨ 在线学习派 | Titans | 可写内存模块 | 1 步梯度更新,100 M 参数当 LTM |
三、门派详解(含公式、代码、八卦)
① 分页派:MemGPT——把 LLM 当 Linux 内核
核心公式:无公式,全是系统调用self.edit_memory('working', old='用户姓名:张三', new='用户姓名:张三(VIP)')
一句话原理
prompt = 物理内存(8 k)
external DB = 磁盘(∞)
LLM 自己当 page-fault handler,内存压力 > 70 % 就 page_out()。
2025 年落地 Tips
- 70 % 阈值最香,调到 90 % 会丢关键事实。
request_heartbeat=true让模型“多想一步”,在客服场景把转化率 + 4.3 %。- 别在 32 k 窗口机型用,换页开销反而更大。
② 遗忘派:MemoryBank——让 AI 也“学而时习之”
核心公式
记忆强度
S(t)=S0⋅e−t/τ+∑i=1nδ(t−ti) S(t) = S_0 \cdot e^{-t/\tau} + \sum_{i=1}^n \delta(t-t_i) S(t)=S0⋅e−t/τ+i=1∑nδ(t−ti)
每次召回强度 +1,τ 控制遗忘速度。
一句话原理
把人类“越用越记得”搬到向量数据库,SiliconFriend 实测 10 天对话后,用户亲密度打分 + 18 %。
2025 年落地 Tips
- τ 按业务设置:客服 7 天,伴侣 30 天,医疗 365 天。
- 中英双语用不同编码器(MiniLM vs text2vec),别混用。
- 敏感词先过脱敏模型,再写库,合规审计一次过。
③ 卡片派:A-Mem——知识图谱的“自生长”
核心公式
相似度筛选 + LLM 建链
sn,j=en⋅ej∥en∥∥ej∥ s_{n,j} = \frac{\mathbf{e}_n \cdot \mathbf{e}_j}{\|\mathbf{e}_n\| \|\mathbf{e}_j\|} sn,j=∥en∥∥ej∥en⋅ej
Top-k 候选 → LLM 软决策是否双向链接。
一句话原理
每来一条新记忆,先向量找“邻居”,再让 LLM 决定要不要“交朋友”,旧卡片可更新标签,实现“知识回环”。
2025 年落地 Tips
- k=5 最平衡,k>20 噪声爆炸。
- 链接数 > 15 的卡片升级为“枢纽”,单独做 LoRA 微调,推理命中率 + 9 %。
- 用 Neo4j 存链接,可视化后给老板看,融资成功率 ×2。
④ OS 派:MemOS——记忆即文件,权限、版本、迁移一条龙
核心数据结构:MemCube
{
"meta": {"access": ["user_483"], "ttl": "2025-12-31", "watermark": "sha256(xxx)"},
"payload": {"type": "activation", "content": "KV-cache of travel偏好"}
}
一句话原理
把记忆抽象成系统资源,支持 plaintext → KV → LoRA 三段演化,跨模型、跨平台、带审计。
2025 年落地 Tips
- 高频 KV 走本地 Redis,低频归档到 S3,成本降 70 %。
- 三元权限(用户×记忆×上下文)+ 自动脱敏,通过 SOC2 审计。
- 旅行 APP 实测:用户换手机,3 秒完成记忆迁移,留存率 + 11 %。
⑤ RL 派:Memory-R1——让模型自己学会“记住/忘记”
核心算法:GRPO
目标函数
J(θ)=Eτ∼πθ[∑tγtRt⋅KL(πθ∥πref)] J(\theta) = \mathbb{E}_{\tau \sim \pi_\theta} \left[ \sum_t \gamma^t R_t \cdot \text{KL}\left(\pi_\theta \| \pi_{\text{ref}}\right) \right] J(θ)=Eτ∼πθ[t∑γtRt⋅KL(πθ∥πref)]
奖励 = 最终答案 Exact Match,仅 152 条数据就能收敛。
一句话原理
双智能体:Manager 决定 ADD/UPDATE/DELETE,Answer Agent 做 Memory Distillation,端到端 RL 训练,F1 相对 Mem0 提升 48 %。
2025 年落地 Tips
- 先用 GPT-4o 蒸馏 500 条伪标签,再喂 GRPO,数据量 ×3 零成本。
- 多跳推理任务收益最大,客服 FAQ 场景收益有限。
- 显存紧张时用 LoRA+GRPO,显存降 40 %,效果持平。
⑥ 案例派:Memento——不微调模型,只微调“经验库”
核心公式:M-MDP
策略
π(a∣s,M)=∑c∈Mμ(c∣s,M)⋅pLLM(a∣s,c) \pi(a|s, M) = \sum_{c \in M} \mu(c|s, M) \cdot p_{\text{LLM}}(a|s, c) π(a∣s,M)=c∈M∑μ(c∣s,M)⋅pLLM(a∣s,c)
用 Soft Q-Learning 只更新检索策略 μ,LLM 冻结。
一句话原理
把每一次任务轨迹存成“案例”,新任务来了先检索相似案例,再让 LLM 复用+修正,GAIA 基准刷到 79.4 %,成本仅为微调方案的 1/20。
2025 年落地 Tips
- K=4 案例最香,>8 噪声主导。
- 案例用 JSON+gzip 存 S3,1 亿条≈ 300 GB, Glacier 深归档月费 70 刀。
- OOD 任务提升 4.7~9.6 %,适合做“长尾知识”冷启动。
⑦ 树搜索派:CoAT——把 MCTS 做成“联想记忆”外挂
一句话原理
128 步长推理不微调:MCTS 展开时,用联想记忆把“之前死过的分支”缓存成向量,下次遇到相似节点直接剪枝,速度 ×3,准确率 + 6 %。
2025 年落地 Tips
- 数学证明题、代码生成场景 ROI 最高。
- 节点 embedding 用最后 4 层 hidden state 平均,512 dim 够用了。
- 剪枝阈值 0.85 最平衡,>0.9 会误杀正确答案。
⑧ 慢思维派:OmniThink——让 AI 像学者一样“写综述”
新指标:Knowledge Density(KD)
KD=Numinfo_sentencesNumtotal_sentences \text{KD} = \frac{\text{Num}_\text{info\_sentences}}{\text{Num}_\text{total\_sentences}} KD=Numtotal_sentencesNuminfo_sentences
OmniThink 在 WildSeek 基准 KD=22.31,比 STORM 高 15 %。
一句话原理
“扩展-反思”双循环:信息树横向拉宽知识边界,概念池纵向提炼认知,适合写白皮书、研报、知乎长文。
2025 年落地 Tips
- 概念池大小 200 节点是拐点,再涨收益递减。
- 中文用 Baike+微信公众号文章做检索源,KD 额外 + 1.2。
- 生成 5000 字长文成本 $0.8,比人类作者便宜 100 倍。
⑨ 在线学习派:Titans——内存可梯度更新,1 步记住你
核心模块:LTM(Long-Term Memory)
LTMt+1=LTMt−η∇LTML \text{LTM}_{t+1} = \text{LTM}_t - \eta \nabla_{\text{LTM}} \mathcal{L} LTMt+1=LTMt−η∇LTML
1 个 step 就完成知识注入,100 M 参数专门当“外置海马体”。
一句话原理
把记忆做成可写矩阵,推理时做交叉注意力,学完即插即拔,不掉基座模型权重。
2025 年落地 Tips
- 别在 7B 模型下用,显存占 1.5×,性价比低;30B 以上才划算。
- 学习率 1e-4 最稳,>1e-3 会灾难性遗忘基座知识。
- 适合做“个人第二大脑”,用户换手机 LTM 文件 6 G 直接拷走。
四、一张选型决策表(收藏版)
| 场景 | 推荐门派 | 禁用门派 | 理由 |
|---|---|---|---|
| 客服 FAQ | 分页派 | 在线学习派 | 成本低,答案确定,无需梯度写 |
| AI 伴侣 | 遗忘派 + 卡片派 | RL 派 | 需要情感一致性,RL 容易“学坏” |
| 医疗长文档 | OS 派 + 慢思维派 | 分页派 | 法规版本管理必须,慢思维提深度 |
| 代码生成 | 树搜索派 | 遗忘派 | 需要精准逻辑,遗忘会丢接口版本 |
| 投研写作 | 慢思维派 | 案例派 | 要新颖+深度,案例派容易八股 |
| 个人助理 | 在线学习派 + OS 派 | 树搜索派 | 随时写用户偏好,树搜索延迟高 |
五、创业&投资风向标(私货)
-
记忆即服务(Memory-as-a-Service)
MemOS 的 MemCube 协议一旦开源,会出现“记忆中间件”创业公司,帮 B 端做跨模型记忆迁移,估值模型=Snowflake÷2。 -
RL 记忆管理
Memory-R1 证明 152 条数据就能训,垂直 SaaS 可以用极少标注把记忆操作做到 90 % 准确率,适合做“合规审计记忆”“医疗病历记忆”。 -
个人第二大脑
Titans 的 LTM 文件 6 G 可离线带走,手机端跑 4 bit 量化后 1.5 G,ToC 收费模式清晰:订阅 + 云同步,参考 Notion 年费 $96。 -
中文记忆生态
中文公开向量库稀缺,谁能做出“百度+公众号+知乎”三源合一的脱敏记忆库,谁就是下一个“中文 ChatGPT 时刻”。
六、写在最后:记忆是通往 AGI 的暗线
参数 scaling 已摸到天花板,记忆 scaling 才刚起步。
当模型可以“记住你是谁、写过什么、说过什么、错过什么”,它就不再是工具,而是数字生命的雏形。
愿我们在追求更长、更深、更准的记忆时,也记得给用户留一把“遗忘钥匙”。
毕竟,会遗忘,才更像人。
火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐
所有评论(0)