2025 Arxiv Memento: Fine-tuning LLM Agents without Fine-tuning LLMs (Memento: 在不微调大语言模型的情况下微调其智能体)

背景: 现有的大语言模型（LLM）智能体要么依赖于固定的、手工制作的反射工作流，要么需要对LLM参数进行梯度更新，这两种方式都限制了其灵活性和适应性。前者僵化，后者计算成本高昂，不适用于在线持续学习。方案概述: 论文提出了一种名为Memento的新型学习范式，旨在实现自适应LLM智能体，且无需微调底层LLM。该方法通过基于记忆的在线强化学习实现低成本的持续适应。作者将此过程形式化为记忆增强马尔可夫

w2698515789

885人浏览 · 2025-09-28 09:55:13

w2698515789 · 2025-09-28 09:55:13 发布

论文基本信息

题目: Memento: Fine-tuning LLM Agents without Fine-tuning LLMs (Memento: 在不微调大语言模型的情况下微调其智能体)
作者: Huichi Zhou*, Yihang Chen*, Siyuan Guo, Xue Yan, Kin Hei Lee, Zihan Wang, Ka Yiu Lee, Guchun Zhang, Kun Shao, Linyi Yang†, and Jun Wang†
机构: AI Centre, UCL; Huawei Noah’s Ark Lab, UK; Jilin University; Institute of Automation, CAS
发表: arXiv预印本 (arXiv:2508.16153v2 [cs.LG]), 2025年8月25日
关键词与术语定义:
- LLM Agent (大语言模型智能体): 一个利用一个或多个大语言模型，通过交互、推理和决策来自主执行复杂任务的系统，通常能访问外部工具、记忆或环境。
- Continual Learning (持续学习): 智能体在不遗忘过去知识的情况下，从持续的数据流中不断学习和适应的能力。
- Case-Based Reasoning (CBR, 案例推理): 一种解决问题的范式，通过复用和调整过去相似问题的解决方案来解决新问题。
- Memory-augmented Markov Decision Process (M-MDP, 记忆增强马尔可夫决策过程): 对标准马尔可夫决策过程的扩展，在形式化模型中加入了显式的记忆空间，用于描述依赖历史经验的决策过程。
- Planner-Executor Architecture (规划器-执行器架构): 一种智能体设计模式，其中“规划器”负责将复杂任务分解为子任务，“执行器”负责执行这些子任务（通常借助工具）。

摘要（详细复述）

背景: 现有的大语言模型（LLM）智能体要么依赖于固定的、手工制作的反射工作流，要么需要对LLM参数进行梯度更新，这两种方式都限制了其灵活性和适应性。前者僵化，后者计算成本高昂，不适用于在线持续学习。
方案概述: 论文提出了一种名为Memento的新型学习范式，旨在实现自适应LLM智能体，且无需微调底层LLM。该方法通过基于记忆的在线强化学习实现低成本的持续适应。作者将此过程形式化为记忆增强马尔可夫决策过程（M-MDP），并配备了一个神经案例选择策略来指导行动决策。过去的经验（案例）被存储在一个情景记忆库中，该记忆库可以是可微分的（参数化）或非参数化的。策略通过一种记忆重写机制，根据环境反馈持续更新，而策略的改进则通过高效的记忆读取（检索）实现。
主要结果/提升:
- 在深度研究场景中，Memento在GAIA验证集上取得了Top-1的成绩（87.88% Pass@3），在测试集上达到79.40%。
- 在DeepResearcher数据集上，F1分数达到66.6%，PM分数达到80.4%，超越了当前最先进的基于训练的方法。
- 在分布外（OOD）任务上，基于案例的记忆带来了4.7%到9.6%的绝对性能提升。
结论与意义: Memento为开发能够进行持续、实时学习的通用LLM智能体提供了一条可扩展且高效的路径，且无需梯度更新。这推动了机器学习在开放式技能获取和深度研究等场景中的应用。

研究背景与动机

学术/应用场景与痛点:
LLM智能体在自主解决问题方面展现出巨大潜力，但其学习和适应能力面临一个核心困境。当前主流方法存在根本性限制：
1. 静态框架: 基于固定的工作流和硬编码的推理逻辑，这类智能体虽然在特定任务上有效，但部署后即为静态，无法整合新信息或适应新情况。
2. 参数化微调: 通过监督微调（SFT）或强化学习（RL）更新LLM本身的参数。这种方法虽然能带来更灵活的行为，但计算成本极高，需要大量标注数据，且面临灾难性遗忘的风险，不适用于需要在开放环境中进行持续在线学习的场景。
  由此，论文提出了一个核心研究问题：“我们如何构建能够在变化的环境中持续学习的LLM智能体，同时避免微调底层LLM所带来的高昂成本？”
主流路线与局限:
受到人类记忆机制的启发（即通过编码、巩固、强化和检索情景记忆来学习），论文提出采用基于记忆的非参数化学习路径。

方法类别	代表工作/技术	优点	局限与不足
静态/启发式工作流	ReAct, Reflexion	实现简单，在特定任务上表现良好。	僵化：无法从新经验中学习或适应动态环境。
参数化微调	SFT, Agentic RL	高任务保真度：能够学习复杂的行为模式。	高成本：计算和数据需求巨大；灾难性遗忘：学习新知识时可能忘记旧知识；不适用于在线学习。
案例推理 (CBR)	Memento (本文)	低成本：无需更新LLM参数；持续学习：能够在线整合新经验；避免遗忘：新旧知识共存于记忆库中。	检索效率和质量是关键；记忆库可能过大导致“淹没问题”（检索成本超过收益）。

问题定义（形式化）

本文将基于案例推理（CBR）的智能体决策过程建模为一个记忆增强马尔可夫决策过程 (M-MDP)。

形式化定义: M-MDP是一个元组 $\gamma, M)$ ，其中：
- $S$ : 状态空间，通常是有限长度的文本序列。
- $A$ : 动作空间，同样是有限长度的文本序列。
- $P$ : 状态转移函数， $\times A \rightarrow \Delta(S)$ ，表示在状态 $s$ 执行动作 $a$ 后到达下一状态的概率分布。
- $R$ : 奖励函数， $\times A \rightarrow \mathbb{R}$ ，表示在状态 $s$ 执行动作 $a$ 后获得的奖励。
- $γ\gamma$ : 折扣因子， $γ∈[0,1)\gamma \in [0, 1)$ 。
- $M$ : 记忆空间，由过去的状态-动作-奖励三元组构成，即 $\times A \times R)^*$ 。
CBR智能体的策略: 智能体的整体策略 $π(a∣s,M)\pi(a|s, M)$ 分解为两部分：一个案例检索策略 $μ(c∣s,M)\mu(c|s, M)$ 和一个固定的LLM动作生成策略 $p_{LLM}(a|s, c)$ 。前者负责从记忆库 $M$ 中根据当前状态 $s$ 检索出一个合适的案例 $c$ ，后者则利用该案例生成最终的动作 $a$ 。
目标函数: 智能体的整体策略由以下公式定义：
$\pi(a|s, M) = \sum_{c \in M} \mu(c|s, M) p_{LLM}(a|s, c)$
本文的核心目标是在保持 $p_{LLM}$ 不变的情况下，学习一个最优的案例检索策略 $μ∗\mu^*$ ，以最大化长期累积奖励。

创新点（逐条可验证）

提出无需微调LLM的智能体学习新范式:
- 如何做: Memento将学习过程从更新LLM的内部参数转移到了优化一个外部的、轻量级的记忆检索模块。智能体通过与环境交互，将成功的和失败的经验（案例）存入记忆库，并通过一个专门学习的策略来决定何时以及如何复用这些经验。
- 为什么有效: 这种方法极大地降低了计算成本，使得智能体能够进行实时、在线的持续学习。它从根本上避免了灾难性遗忘问题，因为新旧知识以案例的形式共存，而不是通过覆盖模型权重来学习。
以M-MDP和软Q学习进行严谨的理论形式化:
- 如何做: 论文没有停留在启发式方法，而是将智能体的学习过程严谨地建模为M-MDP。在此框架下，通过最大熵强化学习（软Q学习）推导出了最优案例检索策略的闭环解。
- 为什么有效: 这种形式化为“如何学习检索”提供了理论依据。软Q学习的目标函数中包含了熵项，这鼓励策略在检索时保持一定的多样性，避免过早收敛到次优的案例，从而提升了探索效率和学习的鲁棒性。
设计并实现了参数化与非参数化两种记忆机制:
- 如何做: Memento提供了两种具体的记忆实现方式。非参数化记忆使用预训练的编码器和余弦相似度进行快速检索，简单高效。参数化记忆则通过训练一个Q网络来预测每个案例对于当前任务的“价值”（Q值），从而进行更有选择性的检索。
- 为什么有效: 这两种机制提供了灵活性和效果的权衡。非参数化方法是冷启动和快速部署的理想选择。参数化方法则能够通过在线学习，超越简单的语义相似度匹配，学习到更深层次的任务-案例相关性，从而实现更优的性能和持续改进。

方法与核心思路（重点展开）

Memento的架构和学习机制是本文的核心。其设计精巧地将经典的CBR思想与现代强化学习理论相结合，并落地于一个实用的Planner-Executor框架中。

整体框架

Memento采用Planner-Executor架构，在“案例规划”和“工具执行”两个阶段之间交替进行。

Planner (规划器): 一个基于CBR的LLM智能体。它接收任务指令，从Case Memory中读取相关历史案例，然后生成一个分解后的计划（一系列子任务）。
Executor (执行器): 一个通用的LLM，负责执行单个子任务。它会调用Tool Register中定义的外部工具（通过MCP协议），并将执行结果记录下来。
Memory Modules (记忆模块):
- Case Memory: 核心的长期记忆模块，存储历史的(任务, 计划, 结果)三元组。学习过程主要围绕该模块的Read（读取）和Write（写入）操作进行。
- Subtask Memory: 短期工作记忆，用于协调规划器和执行器，记录当前任务的子任务及其状态。
- Tool Memory: 记录每个子任务中工具调用的详细日志。

核心机制: 基于软Q学习的案例检索

Memento的目标是学习一个最优的案例检索策略 $μ\mu$ 。

最大熵强化学习目标:
为了在优化过程中鼓励对不同案例的探索，采用最大熵RL框架。目标函数 $J(π)J(\pi)$ 不仅最大化累积奖励，还最大化检索策略的熵 $H\mathcal{H}$ ：
$J(\pi) = \mathbb{E}_{\tau \sim p} \left[ \sum_{t=0}^{T-1} [R(s_t, a_t) + \alpha \mathcal{H}(\mu(\cdot|s_t, M_t))] \right]$
其中 $α\alpha$ 是控制熵权重的超参数。
软Q函数与最优策略:
在此框架下，可以推导出最优检索策略 $μ∗\mu^*$ 是一个关于最优软Q函数 $Q^*(s, M, c)$ 的Softmax分布：
$\mu^*(c|s, M) = \frac{\exp(Q^*(s, M, c)/\alpha)}{\sum_{c' \in M} \exp(Q^*(s, M, c')/\alpha)}$
这个结论至关重要，因为它将学习最优策略的问题转化为了学习最优Q函数的问题。
Q函数的学习:
Q函数通过时序差分（TD）学习进行更新。其更新规则为：
$Q(s_t, M_t, c_t) \leftarrow Q(s_t, M_t, c_t) + \eta \left[ r_t + \gamma \alpha \log \sum_{c' \in M_{t+1}} \exp(Q(s_{t+1}, M_{t+1}, c')) - Q(s_t, M_t, c_t) \right]$
其中 $η\eta$ 是学习率。
Q函数实现方式:
由于状态 $s$ 和案例 $c$ 是复杂的自然语言，直接学习Q表或一个简单的神经网络是困难的。Memento的实现对此进行了简化和创新：
- 简化为单步: 在规划阶段，检索案例是一个单步决策，因此TD学习中的未来价值项（bootstrapping）可以被忽略。学习目标简化为直接预测立即奖励 $r$ 。
- 参数化Q函数: 由于深度研究任务中的奖励信号是二元的（成功为1，失败为0），可以将Q值学习问题看作一个二分类问题。因此，用一个神经网络 $\theta)$ 来预测给定当前状态 $s$ 和候选案例 $c$ ，任务成功的概率 $\theta)$ 。损失函数也从均方误差（MSE）改为更稳定的交叉熵（CE）损失：
  $\mathcal{L}(\theta) = \mathbb{E}_{(s,c,r)} [-r \log Q(s, c; \theta) - (1-r) \log(1-Q(s, c; \theta))]$

伪代码与执行流程 (Algorithm 1)

Algorithm 1: Fine-tuning CBR agent with soft Q-learning and state similarity
Require: Kernel network params θ, LLM policy p_LLM, entropy α, discount γ, learning rate η, etc.
1: Initialize target retrieval network θ̄ ← θ
2: for timestep t = 0, 1, 2, ... do
3:   Retrieve: Sample case c_t ~ μ_θ(· | s_t, M_t)
4:   Reuse & Revise: Sample action a_t ~ p_LLM(· | s_t, c_t)
5:   Execute a_t and observe reward r_t and next state s_{t+1}
6:   Retain: M_{t+1} = M_t ∪ {(s_t, a_t, r_t)}
7:   Store transition in replay buffer B
8:   Append Episodic Memory D
9:   Sample mini-batch from B
10:  θ ← θ - η ∇_θ L_i   // Update policy
11:  if t mod K == 0 then
12:    θ̄ ← βθ̄ + (1-β)θ // Update target network
13:  end if
14: end for

伪代码描述: 该算法清晰地展示了Memento的在线学习循环。在每个时间步，智能体首先检索一个历史案例，然后利用LLM复用和调整该案例生成当前动作。执行动作后，获得奖励和新状态。新的经验被保留在记忆库中，并存入一个回放缓冲区。智能体从缓冲区中采样，计算损失并更新检索策略网络（参数 $θ\theta$ ）。为了稳定训练，还会定期更新一个目标网络 $θˉ\bar{\theta}$ 。

实验设置

数据集:
- GAIA: 评估长时程规划和工具使用能力，分为3个难度等级。
- DeepResearcher: 一个包含7个开放域问答数据集（如NQ, TQ, HotpotQA等）的集合，用于评估实时网页研究能力。
- SimpleQA: 评估事实性问答的准确性，对抗幻觉。
- HLE (Humanity’s Last Exam): 评估在长尾、专业领域的复杂推理能力。
对比基线:
- Prompt-based: CoT, CoT + RAG。
- Training-based: Search-r1-instruct, R1-Searcher, DeepResearcher (SOTA)。
评价指标:
- GAIA: 精确匹配（EM, Pass@3）。
- 其他数据集: 宏F1分数（Macro-F1）、部分匹配分数（Partial Match, PM），PM分数由GPT-4o-mini进行评估。
实现细节:
- 规划器 (Planner): GPT-4.1。
- 执行器 (Executor): o3 (用于GAIA), o4-mini (用于其他)。
- 非参数化CBR: 使用SimCSE进行句子编码和余弦相似度计算。
- 参数化CBR: Q函数为一个两层MLP，输入为SimCSE编码的状态和案例表示。

实验结果与分析

主结果与消融研究

Memento在所有基准测试中都展现了卓越的性能。

主结果:
- 在 DeepResearcher 上，Memento (F1 66.6%) 显著优于所有基线，包括强大的训练模型DeepResearcher (F1 51.8%)。
- 在 GAIA 上，Memento在验证集上达到87.88%的Pass@3，排名第一；在测试集上达到79.40%，在开源框架中排名靠前。
消融实验 (Component-wise Analysis):
实验通过逐步增加组件来验证各部分贡献：Offline Executor (仅LLM) → Online Executor (+工具) → Memento w/o CBR (+规划) → Memento (+CBR)。
- 工具的重要性: 从 Offline 到 Online，性能大幅提升（如SimpleQA F1从19.7%到48.5%），证明了实时检索和工具执行的价值。
- 规划的重要性: 增加规划器后 (Memento w/o CBR)，性能再次显著提升（SimpleQA F1从48.5%到81.0%），说明显式的任务分解和协调至关重要。
- CBR的价值: 最后加入CBR (Memento)，性能得到持续且稳健的增益（SimpleQA F1从81.0%到84.7%；DeepResearcher F1从59.9%到66.6%）。这清晰地证明了从历史经验中学习的核心机制是有效的。

持续学习与泛化能力

持续学习曲线 (图1c, 表4):
在DeepResearcher数据集上进行的5轮迭代学习中，Memento w/o CBR 的性能随着迭代次数的增加而提升，而带有CBR的完整版Memento不仅起点更高，且学习曲线更陡峭，5轮后达到更高性能。这直观地展示了其持续学习的能力。
泛化能力 (OOD Performance, 图1d):
将在NQ、TQ等数据集上收集的案例用于MusiQue、Bamboogle等OOD任务时，CBR带来了**4.7%到9.6%**的绝对性能提升。这表明Memento学习到的经验具有良好的泛化性，能够迁移到问题风格和信息分布不同的新任务上。
超参数分析 (K的选择, 表3):
实验发现，检索案例的数量 K=4 时性能达到最佳。当K继续增大时，性能趋于平稳甚至略有下降。这说明“少而精”的高质量案例比大量的案例更有效，凸显了案例选择和记忆库管理的重要性。

方法	NQ (F1/PM)	TQ (F1/PM)	HotpotQA (F1/PM)	2Wiki (F1/PM)	Musique (F1/PM)	Bamboogle (F1/PM)	PopQA (F1/PM)	Avg (F1/PM)
DeepResearcher (SOTA)	39.6/61.9	78.4/85.0	52.8/64.3	59.7/66.6	27.1/29.3	71.0/72.8	48.5/52.7	51.8/60.5
Memento (Ours)	42.0/74.6	85.5/93.9	66.5/81.6	81.4/94.1	40.6/53.3	86.2/92.8	64.0/72.5	66.6/80.4

复现性清单

代码/数据: 论文提供了GitHub链接: https://github.com/Agent-on-the-Fly/Memento，代码已开源。
模型权重: 依赖于公开的API模型（如GPT-4.1）和开源模型（如SimCSE），无需提供自定义权重。
环境与依赖版本: 论文未详细说明。
运行命令、配置文件: 未在论文中提供，预计在代码库中。
评测脚本: 论文清晰定义了评价指标，PM分数依赖于LLM作为评估器，这是一种新兴但需要注意其稳定性的评估方法。

结论与未来工作

结论: Memento成功地提出并验证了一种创新的、基于记忆的LLM智能体学习范式。该方法通过将学习任务聚焦于外部记忆的检索策略，实现了在不微调LLM参数的前提下进行高效的在线持续学习。论文通过严谨的M-MDP形式化、软Q学习推导以及在多个高难度基准上的实验，证明了该方法的有效性。消融研究明确了参数化和非参数化CBR对于性能提升的关键作用，并指出一个小的、精心管理的记忆库即可达到最优效果。
未来工作: 本文的研究成果为未来基于记忆的MDP框架在深度研究任务中的应用开辟了道路，未来的研究方向可能包括更复杂的记忆管理和重写机制、更大规模记忆库的扩展性问题，以及在更开放、更动态的环境中的应用。更动态的环境中的应用。

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

火山引擎 ADG 社区

OpenClaw 小白安装指南（Windows版）

（类似一个能自动执行任务的AI机器人），不是游戏。API Key只保存在你本地电脑的加密文件里，不会上传到任何地方。访问：https://github.com/miaoxworld/openclaw-manager/releases。: 一键安装脚本会自动安装Node.js 22+，如果失败，手动下载安装：https://nodejs.org/：在PowerShell中，鼠标右键就是粘贴，不需要按

火山引擎 ADG 社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla