Memo架构详解:牛津大学突破具身智能体记忆瓶颈,Transformer效率提升10倍!
牛津大学、佐治亚理工学院和丰田欧洲联合提出Memo架构,一种创新的Transformer强化学习方案,解决具身智能体在长时序任务中的记忆效率问题。通过周期性插入摘要令牌,Memo将输入序列分割成段并生成压缩记忆,显著降低计算和存储需求(内存减少90%)。实验表明,Memo在多对象导航等任务中性能超越基线方法,同时具备更强的泛化能力和流式推理鲁棒性,为具身智能体的实际部署提供了高效解决方案。
今天CV君要给大家介绍一篇来自牛津大学、佐治亚理工学院和丰田欧洲的最新研究,这篇论文题为“Memo: Training Memory-Efficient Embodied Agents with Reinforcement Learning”,并已被NeurIPS 2025接收为Spotlight Presentation。这篇研究提出了一种名为 Memo 的Transformer强化学习架构,旨在解决具身智能体在长时间任务中记忆效率低下的问题。

- 论文标题: Memo: Training Memory-Efficient Embodied Agents with Reinforcement Learning
- 作者: Gunshi Gupta, Karmesh Yadav, Zsolt Kira, Yarin Gal, Rahaf Aljundi
- 机构: 牛津大学(University of Oxford);佐治亚理工学院(Georgia Tech University);丰田欧洲(Toyota Europe)
- 会议/期刊: Accepted for Spotlight Presentation at NeurIPS 2025
- 论文地址: https://arxiv.org/abs/2510.19732
研究背景与动机
在具身智能体领域,让智能体在长时间内有效运行,并能形成和访问记忆以保持对环境的上下文理解,是至关重要的。想象一下,一个机器人需要在复杂的环境中完成一系列任务,它需要记住之前看到的东西、做过的事情,才能更好地规划下一步。然而,当前基于Transformer的策略在处理具身序列决策任务时,面临一个巨大的挑战:视觉输入往往会迅速超出Transformer的上下文限制。人类可以压缩并利用一生的经验作为记忆,而Transformer却难以处理海量的原始输入。
现有的方法大多集中在固定大小记忆的循环模型,或者完全依赖完整上下文的Transformer。这些方法在处理长时序任务时,往往会遇到计算和存储效率低下的问题,尤其是在推理阶段,需要截断历史上下文以适应计算约束。因此,如何让Transformer在保持其强大建模能力的同时,也能高效地处理和利用长期记忆,成为了一个亟待解决的问题。
Memo:记忆高效的Transformer强化学习架构
为了解决上述挑战,研究团队提出了 Memo,一个专为记忆密集型、长时序任务设计的Transformer强化学习架构和训练方案。 Memo 的核心思想是通过在训练过程中,周期性地在模型输入中插入摘要令牌(summarization tokens),从而实现记忆的创建和检索。
核心方法:记忆的创建与检索
Memo 的工作原理可以概括为:将连续的输入序列分割成多个段(segments),并在每个段的末尾生成一个摘要令牌。这个摘要令牌会捕获当前段的关键信息,并作为下一个段的“记忆”输入。这样,Transformer在处理后续输入时,就不需要回顾整个历史上下文,而只需要关注当前的输入和前一个摘要令牌所代表的记忆。
图1展示了 Memo 的架构图。我们可以看到,输入观测(O1-3lseg)被分成多个段,每个段结束后会生成一个摘要令牌,这个令牌将信息从一个输入块传递到下一个输入块,形成一个信息瓶颈,从而实现记忆的压缩。
这种机制使得 Memo 能够在保持上下文理解的同时,显著降低对计算和存储资源的需求。它有效地将大量原始输入压缩成更紧凑的记忆表示,从而让Transformer能够处理更长的任务序列。
实验设计与结果分析
研究团队在多个基准任务上验证了 Memo 的有效性,包括网格世界元强化学习基准(gridworld meta-RL benchmark)和在逼真室内环境中的多对象导航任务(multi-object navigation task)。
多对象导航任务表现优异
在Habitat模拟器中的多对象导航任务(EXTOBJNAV)中,智能体需要在房屋周围放置多个物体,并在每次达到目标后采样一个新的目标物体。
图2展示了在EXTOBJNAV任务中,不同方法在32k上下文学习步骤中的成功率和SPL曲线。我们可以清楚地看到,Memo 在性能上显著优于朴素的长上下文Transformer基线(FCT)、不关注前一回合的FCT变体(no IEA)、循环记忆Transformer(RMT)以及Autocompressors(AC)变体。这表明 Memo 不仅能够有效地处理长时序任务,而且在复杂环境中表现出更强的泛化能力。
记忆效率显著提升
Memo 在计算和存储效率方面也展现出显著优势。
表1对比了 Memo 和全上下文Transformer(FCT)在EXTOBJNAV任务评估结束时(32k步)的GPU内存使用情况。结果显示,FCT的KV缓存内存需求是 Memo 的 10倍 之高,这与 Memo 的上下文压缩比(约8倍)相符。这意味着 Memo 能够以更少的资源实现更好的性能,这对于实际部署具身智能体具有重要意义。
泛化能力与流式推理鲁棒性
Memo 在推理时对更长上下文的泛化能力更强,并且在流式设置中保持鲁棒性,即使历史上下文需要截断以适应推理约束。
图3 (a) 展示了在Dark-Key-To-Door任务上的结果,Memo 同样表现出色。图3 (b) 则进一步比较了 Memo 和AC变体在EXTOBJNAV上的表现。
图4 (a) 对比了 Memo 和Transformer的流式评估,Memo 在这种场景下展现出更强的鲁棒性。
消融实验
研究团队还进行了详细的消融实验,以理解 Memo 各个组件的作用。
图5 (左) 探讨了不同数量记忆令牌(16/32/64)对性能的影响,结果显示32个令牌的表现优于16个,而16个又优于64个。这表明记忆令牌的数量需要仔细权衡。图5 (右) 则比较了随机和固定段长度的摘要生成方式,结果表明随机段长度在数据效率上显著更高。
图8进一步展示了 Memo 中摘要生成过程的消融研究。
图9展示了 Memo 消融实验在EXTOBJNAV上的训练-验证差距。
总结
CV君觉得,Memo 的提出为具身智能体在复杂、长时序任务中的记忆问题提供了一个非常优雅且高效的解决方案。通过引入周期性摘要令牌,它巧妙地平衡了Transformer的强大建模能力和记忆效率的需求。这种方法不仅在性能上超越了现有基线,更在计算和存储资源上实现了显著优化,这对于未来具身智能体的实际部署具有重要的推动作用。尤其是在流式推理场景下的鲁棒性,更是让 Memo 在现实世界应用中充满了潜力。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
一直在更新,更多的大模型学习和面试资料已经上传带到CSDN的官方了,有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇

01.大模型风口已至:月薪30K+的AI岗正在批量诞生

2025年大模型应用呈现爆发式增长,根据工信部最新数据:
国内大模型相关岗位缺口达47万
初级工程师平均薪资28K(数据来源:BOSS直聘报告)
70%企业存在"能用模型不会调优"的痛点
真实案例:某二本机械专业学员,通过4个月系统学习,成功拿到某AI医疗公司大模型优化岗offer,薪资直接翻3倍!
02.大模型 AI 学习和面试资料
1️⃣ 提示词工程:把ChatGPT从玩具变成生产工具
2️⃣ RAG系统:让大模型精准输出行业知识
3️⃣ 智能体开发:用AutoGPT打造24小时数字员工
📦熬了三个大夜整理的《AI进化工具包》送你:
✔️ 大厂内部LLM落地手册(含58个真实案例)
✔️ 提示词设计模板库(覆盖12大应用场景)
✔️ 私藏学习路径图(0基础到项目实战仅需90天)






第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐
所有评论(0)