收藏这篇就够了!谷歌Agent的“进化论”:在实战中自我学习,这篇把核心秘密都扒光了!
作者提出了一套面向智能体(LLM agents)的“可迁移推理记忆”框架——ReasoningBank。它不是简单存动作轨迹或成功流程,而是从成功与失败经验中提炼可复用的高层“推理策略”(标题、描述、内容三段式记忆单元),在测试期持续检索—使用—沉淀,促成自进化。在此基础上,作者提出记忆感知的测试期扩展(MaTTS),通过并行/串行扩展产生更多对比性经验,以更好合成高质量记忆,形成“记忆 × 测试

这篇文章主要讲什么?
作者提出了一套面向智能体(LLM agents)的“可迁移推理记忆”框架——ReasoningBank。它不是简单存动作轨迹或成功流程,而是从成功与失败经验中提炼可复用的高层“推理策略”(标题、描述、内容三段式记忆单元),在测试期持续检索—使用—沉淀,促成自进化。在此基础上,作者提出记忆感知的测试期扩展(MaTTS),通过并行/串行扩展产生更多对比性经验,以更好合成高质量记忆,形成“记忆 × 测试期扩展”正反馈的新型扩展维度。实验覆盖 Web 浏览(WebArena、Mind2Web)与软件工程(SWE-Bench-Verified),在效果与效率上均优于只存轨迹或只存成功流程的记忆方法。

用了什么方法?如何具体实现?
1)ReasoningBank 记忆框架
- 记忆单元结构:每条记忆包含 Title/Description/Content,抽象掉网站/指令细节,保留可迁移的策略性线索(如“先用过滤再分页检查完整性”“避免只看 Recent 列表”等)。
- 三步闭环:
- 检索(Retrieval):用查询嵌入做相似度搜索,取 top-k 相关记忆注入系统指令,引导决策。
- 抽取(Construction/Extraction):任务结束后由“LLM-as-a-judge”自评成败,再分别从成功轨迹提炼有效策略、从失败轨迹提炼防错/反事实启示(每条最多 3 个记忆项)。
- 合并(Consolidation):以最小化策略直接追加到记忆库,强调“记忆内容质量”的主效应,不额外引入复杂收敛/遗忘算法。
- MaTTS:记忆感知的测试期扩展 动机:传统 TTS(best-of-N、beam 等)在多轮交互场景下很少与记忆协同。作者通过并行与串行两种扩展,让扩展产生的对比信号(多解法差异/自校正痕迹)用于更可靠地策策略忆:
- 并行扩展:同一任务生成多条轨迹,做自对比以滤出稳定策略、剔除伪相关。
- 串行扩展:对单条轨迹做自我细化/复核,把中间反思也作为记忆信号。
-
协同闭环:更好的记忆→引导更有效的扩展探索→产出更强的记忆;形成正反馈。

实验结果如何?
WebArena(684 任务)
- 在三种骨干模型下,ReasoningBank 的成功率整体显著高于无记忆与两类强基线(Synapse:存轨迹;AWM:存工作流),同时平均步数更少,体现效率提升。比如在 Gemini-2.5-pro 上总体 SR 从 46.7%(无记忆)→ 53.9%(RB),步数从 8.8 → 7.4。
- Multi 跨站/跨域迁移子集上优势更明显,显示策略级记忆的可迁移性。
SWE-Bench-Verified(软件修复)
- 以 Gemini-2.5-pro 为例,解决率从 54.0%(无记忆)→ 57.4%(RB),平均步数 21.1 → 19.8。
Mind2Web(跨任务/跨网站/跨领域)
-
三个设定下的 EA/AF1/SSR/SR 均有稳定提升,跨领域收益尤为明显。

核心创新点
- 记忆的“内容范式”升级:从“存轨迹/存流程”进化为提炼可迁移的推理策略,并系统性吸纳失败信号。
- MaTTS 首次系统化地把测试期扩展与记忆协同,用并行自对比与串行自细化产生对比学习信号来策策-忆,把额外算力转化为高质量记忆而非噪声。
- 效果+效率双优且跨数据集/跨任务泛化,特别是在跨领域/跨网站的迁移设定中显示更强鲁棒性。
可能的未来影响
- 面向长期在线智能体的“经验驱动扩展”新范式:把“多跑几次(扩展)”与“会总结(记忆)”闭环起来,成为除模型参数与数据量之外的第三种可扩展维度。
- 产品化记忆栈:可与分层/情节/工作记忆等工程化组件对接,形成可落地的长期记忆服务;在企业工作流、RPA、代码代理、浏览代理等场景提升可复用性与样本效率。
- 失误驱动学习常态化:把失败转成“反事实守则”,推动稳健性与安全性(少走错路、少犯已知错)。
如何学习大模型 AI ?
我国在AI大模型领域面临人才短缺,数量与质量均落后于发达国家。2023年,人才缺口已超百万,凸显培养不足。随着Al技术飞速发展,预计到2025年,这一缺口将急剧扩大至400万,严重制约我国Al产业的创新步伐。加强人才培养,优化教育体系,国际合作并进,是破解困局、推动AI发展的关键。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

2025最新大模型学习路线
明确的学习路线至关重要。它能指引新人起点、规划学习顺序、明确核心知识点。大模型领域涉及的知识点非常广泛,没有明确的学习路线可能会导致新人感到迷茫,不知道应该专注于哪些内容。
对于从来没有接触过AI大模型的同学,我帮大家准备了从零基础到精通学习成长路线图以及学习规划。可以说是最科学最系统的学习路线。

针对以上大模型的学习路线我们也整理了对应的学习视频教程,和配套的学习资料。
大模型经典PDF书籍
新手必备的大模型学习PDF书单来了!全是硬核知识,帮你少走弯路!

配套大模型项目实战
所有视频教程所涉及的实战项目和项目源码等
博主介绍+AI项目案例集锦
MoPaaS专注于Al技术能力建设与应用场景开发,与智学优课联合孵化,培养适合未来发展需求的技术性人才和应用型领袖。


这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

为什么要学习大模型?
2025人工智能大模型的技术岗位与能力培养随着人工智能技术的迅速发展和应用 , 大模型作为其中的重要组成部分 , 正逐渐成为推动人工智能发展的重要引擎 。大模型以其强大的数据处理和模式识别能力, 广泛应用于自然语言处理 、计算机视觉 、 智能推荐等领域 ,为各行各业带来了革命性的改变和机遇 。

适合人群
- 在校学生:包括专科、本科、硕士和博士研究生。学生应具备扎实的编程基础和一定的数学基础,有志于深入AGI大模型行业,希望开展相关的研究和开发工作。
- IT行业从业人员:包括在职或失业者,涵盖开发、测试、运维、产品经理等职务。拥有一定的IT从业经验,至少1年以上的编程工作经验,对大模型技术感兴趣或有业务需求,希望通过课程提升自身在IT领域的竞争力。
- IT管理及技术研究领域人员:包括技术经理、技术负责人、CTO、架构师、研究员等角色。这些人员需要跟随技术发展趋势,主导技术创新,推动大模型技术在企业业务中的应用与改造。
- 传统AI从业人员:包括算法工程师、机器视觉工程师、深度学习工程师等。这些AI技术人才原先从事机器视觉、自然语言处理、推荐系统等领域工作,现需要快速补充大模型技术能力,获得大模型训练微调的实操技能,以适应新的技术发展趋势。

课程精彩瞬间
大模型核心原理与Prompt:掌握大语言模型的核心知识,了解行业应用与趋势;熟练Python编程,提升提示工程技能,为Al应用开发打下坚实基础。
RAG应用开发工程:掌握RAG应用开发全流程,理解前沿技术,提升商业化分析与优化能力,通过实战项目加深理解与应用。
Agent应用架构进阶实践:掌握大模型Agent技术的核心原理与实践应用,能够独立完成Agent系统的设计与开发,提升多智能体协同与复杂任务处理的能力,为AI产品的创新与优化提供有力支持。
模型微调与私有化大模型:掌握大模型微调与私有化部署技能,提升模型优化与部署能力,为大模型项目落地打下坚实基础。
顶尖师资,深耕AI大模型前沿技术
实战专家亲授,让你少走弯路
一对一学习规划,职业生涯指导
- 真实商业项目实训
- 大厂绿色直通车
人才库优秀学员参与真实商业项目实训
以商业交付标准作为学习标准,具备真实大模型项目实践操作经验可写入简历,支持项目背调
大厂绿色直通车,冲击行业高薪岗位
文中涉及到的完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐






所有评论(0)