2025 Arxiv Memento: Fine-tuning LLM Agents without Fine-tuning LLMs (Memento: 在不微调大语言模型的情况下微调其智能体)
背景: 现有的大语言模型(LLM)智能体要么依赖于固定的、手工制作的反射工作流,要么需要对LLM参数进行梯度更新,这两种方式都限制了其灵活性和适应性。前者僵化,后者计算成本高昂,不适用于在线持续学习。方案概述: 论文提出了一种名为Memento的新型学习范式,旨在实现自适应LLM智能体,且无需微调底层LLM。该方法通过基于记忆的在线强化学习实现低成本的持续适应。作者将此过程形式化为记忆增强马尔可夫
论文基本信息
- 题目: Memento: Fine-tuning LLM Agents without Fine-tuning LLMs (Memento: 在不微调大语言模型的情况下微调其智能体)
- 作者: Huichi Zhou*, Yihang Chen*, Siyuan Guo, Xue Yan, Kin Hei Lee, Zihan Wang, Ka Yiu Lee, Guchun Zhang, Kun Shao, Linyi Yang†, and Jun Wang†
- 机构: AI Centre, UCL; Huawei Noah’s Ark Lab, UK; Jilin University; Institute of Automation, CAS
- 发表: arXiv预印本 (arXiv:2508.16153v2 [cs.LG]), 2025年8月25日
- 关键词与术语定义:
- LLM Agent (大语言模型智能体): 一个利用一个或多个大语言模型,通过交互、推理和决策来自主执行复杂任务的系统,通常能访问外部工具、记忆或环境。
- Continual Learning (持续学习): 智能体在不遗忘过去知识的情况下,从持续的数据流中不断学习和适应的能力。
- Case-Based Reasoning (CBR, 案例推理): 一种解决问题的范式,通过复用和调整过去相似问题的解决方案来解决新问题。
- Memory-augmented Markov Decision Process (M-MDP, 记忆增强马尔可夫决策过程): 对标准马尔可夫决策过程的扩展,在形式化模型中加入了显式的记忆空间,用于描述依赖历史经验的决策过程。
- Planner-Executor Architecture (规划器-执行器架构): 一种智能体设计模式,其中“规划器”负责将复杂任务分解为子任务,“执行器”负责执行这些子任务(通常借助工具)。
摘要(详细复述)
- 背景: 现有的大语言模型(LLM)智能体要么依赖于固定的、手工制作的反射工作流,要么需要对LLM参数进行梯度更新,这两种方式都限制了其灵活性和适应性。前者僵化,后者计算成本高昂,不适用于在线持续学习。
- 方案概述: 论文提出了一种名为Memento的新型学习范式,旨在实现自适应LLM智能体,且无需微调底层LLM。该方法通过基于记忆的在线强化学习实现低成本的持续适应。作者将此过程形式化为记忆增强马尔可夫决策过程(M-MDP),并配备了一个神经案例选择策略来指导行动决策。过去的经验(案例)被存储在一个情景记忆库中,该记忆库可以是可微分的(参数化)或非参数化的。策略通过一种记忆重写机制,根据环境反馈持续更新,而策略的改进则通过高效的记忆读取(检索)实现。
- 主要结果/提升:
- 在深度研究场景中,Memento在GAIA验证集上取得了Top-1的成绩(87.88% Pass@3),在测试集上达到79.40%。
- 在DeepResearcher数据集上,F1分数达到66.6%,PM分数达到80.4%,超越了当前最先进的基于训练的方法。
- 在分布外(OOD)任务上,基于案例的记忆带来了4.7%到9.6%的绝对性能提升。
- 结论与意义: Memento为开发能够进行持续、实时学习的通用LLM智能体提供了一条可扩展且高效的路径,且无需梯度更新。这推动了机器学习在开放式技能获取和深度研究等场景中的应用。
研究背景与动机
-
学术/应用场景与痛点:
LLM智能体在自主解决问题方面展现出巨大潜力,但其学习和适应能力面临一个核心困境。当前主流方法存在根本性限制:- 静态框架: 基于固定的工作流和硬编码的推理逻辑,这类智能体虽然在特定任务上有效,但部署后即为静态,无法整合新信息或适应新情况。
- 参数化微调: 通过监督微调(SFT)或强化学习(RL)更新LLM本身的参数。这种方法虽然能带来更灵活的行为,但计算成本极高,需要大量标注数据,且面临灾难性遗忘的风险,不适用于需要在开放环境中进行持续在线学习的场景。
由此,论文提出了一个核心研究问题:“我们如何构建能够在变化的环境中持续学习的LLM智能体,同时避免微调底层LLM所带来的高昂成本?”
-
主流路线与局限:
受到人类记忆机制的启发(即通过编码、巩固、强化和检索情景记忆来学习),论文提出采用基于记忆的非参数化学习路径。
| 方法类别 | 代表工作/技术 | 优点 | 局限与不足 |
|---|---|---|---|
| 静态/启发式工作流 | ReAct, Reflexion | 实现简单,在特定任务上表现良好。 | 僵化:无法从新经验中学习或适应动态环境。 |
| 参数化微调 | SFT, Agentic RL | 高任务保真度:能够学习复杂的行为模式。 | 高成本:计算和数据需求巨大;灾难性遗忘:学习新知识时可能忘记旧知识;不适用于在线学习。 |
| 案例推理 (CBR) | Memento (本文) | 低成本:无需更新LLM参数;持续学习:能够在线整合新经验;避免遗忘:新旧知识共存于记忆库中。 | 检索效率和质量是关键;记忆库可能过大导致“淹没问题”(检索成本超过收益)。 |
问题定义(形式化)
本文将基于案例推理(CBR)的智能体决策过程建模为一个记忆增强马尔可夫决策过程 (M-MDP)。
-
形式化定义: M-MDP是一个元组 (S,A,P,R,γ,M)(S, A, P, R, \gamma, M)(S,A,P,R,γ,M),其中:
- SSS: 状态空间,通常是有限长度的文本序列。
- AAA: 动作空间,同样是有限长度的文本序列。
- PPP: 状态转移函数,P:S×A→Δ(S)P: S \times A \rightarrow \Delta(S)P:S×A→Δ(S),表示在状态sss执行动作aaa后到达下一状态的概率分布。
- RRR: 奖励函数,R:S×A→RR: S \times A \rightarrow \mathbb{R}R:S×A→R,表示在状态sss执行动作aaa后获得的奖励。
- γ\gammaγ: 折扣因子,γ∈[0,1)\gamma \in [0, 1)γ∈[0,1)。
- MMM: 记忆空间,由过去的状态-动作-奖励三元组构成,即 M=(S×A×R)∗M = (S \times A \times R)^*M=(S×A×R)∗。
-
CBR智能体的策略: 智能体的整体策略 π(a∣s,M)\pi(a|s, M)π(a∣s,M) 分解为两部分:一个案例检索策略 μ(c∣s,M)\mu(c|s, M)μ(c∣s,M) 和一个固定的LLM动作生成策略 pLLM(a∣s,c)p_{LLM}(a|s, c)pLLM(a∣s,c)。前者负责从记忆库MMM中根据当前状态sss检索出一个合适的案例ccc,后者则利用该案例生成最终的动作aaa。
-
目标函数: 智能体的整体策略由以下公式定义:
π(a∣s,M)=∑c∈Mμ(c∣s,M)pLLM(a∣s,c) \pi(a|s, M) = \sum_{c \in M} \mu(c|s, M) p_{LLM}(a|s, c) π(a∣s,M)=c∈M∑μ(c∣s,M)pLLM(a∣s,c)
本文的核心目标是在保持 pLLMp_{LLM}pLLM 不变的情况下,学习一个最优的案例检索策略 μ∗\mu^*μ∗,以最大化长期累积奖励。
创新点(逐条可验证)
-
提出无需微调LLM的智能体学习新范式:
- 如何做: Memento将学习过程从更新LLM的内部参数转移到了优化一个外部的、轻量级的记忆检索模块。智能体通过与环境交互,将成功的和失败的经验(案例)存入记忆库,并通过一个专门学习的策略来决定何时以及如何复用这些经验。
- 为什么有效: 这种方法极大地降低了计算成本,使得智能体能够进行实时、在线的持续学习。它从根本上避免了灾难性遗忘问题,因为新旧知识以案例的形式共存,而不是通过覆盖模型权重来学习。
-
以M-MDP和软Q学习进行严谨的理论形式化:
- 如何做: 论文没有停留在启发式方法,而是将智能体的学习过程严谨地建模为M-MDP。在此框架下,通过最大熵强化学习(软Q学习)推导出了最优案例检索策略的闭环解。
- 为什么有效: 这种形式化为“如何学习检索”提供了理论依据。软Q学习的目标函数中包含了熵项,这鼓励策略在检索时保持一定的多样性,避免过早收敛到次优的案例,从而提升了探索效率和学习的鲁棒性。
-
设计并实现了参数化与非参数化两种记忆机制:
- 如何做: Memento提供了两种具体的记忆实现方式。非参数化记忆使用预训练的编码器和余弦相似度进行快速检索,简单高效。参数化记忆则通过训练一个Q网络来预测每个案例对于当前任务的“价值”(Q值),从而进行更有选择性的检索。
- 为什么有效: 这两种机制提供了灵活性和效果的权衡。非参数化方法是冷启动和快速部署的理想选择。参数化方法则能够通过在线学习,超越简单的语义相似度匹配,学习到更深层次的任务-案例相关性,从而实现更优的性能和持续改进。
方法与核心思路(重点展开)
Memento的架构和学习机制是本文的核心。其设计精巧地将经典的CBR思想与现代强化学习理论相结合,并落地于一个实用的Planner-Executor框架中。
整体框架
Memento采用Planner-Executor架构,在“案例规划”和“工具执行”两个阶段之间交替进行。
- Planner (规划器): 一个基于CBR的LLM智能体。它接收任务指令,从Case Memory中读取相关历史案例,然后生成一个分解后的计划(一系列子任务)。
- Executor (执行器): 一个通用的LLM,负责执行单个子任务。它会调用Tool Register中定义的外部工具(通过MCP协议),并将执行结果记录下来。
- Memory Modules (记忆模块):
- Case Memory: 核心的长期记忆模块,存储历史的
(任务, 计划, 结果)三元组。学习过程主要围绕该模块的Read(读取)和Write(写入)操作进行。 - Subtask Memory: 短期工作记忆,用于协调规划器和执行器,记录当前任务的子任务及其状态。
- Tool Memory: 记录每个子任务中工具调用的详细日志。
- Case Memory: 核心的长期记忆模块,存储历史的
核心机制: 基于软Q学习的案例检索
Memento的目标是学习一个最优的案例检索策略 μ\muμ。
-
最大熵强化学习目标:
为了在优化过程中鼓励对不同案例的探索,采用最大熵RL框架。目标函数 J(π)J(\pi)J(π) 不仅最大化累积奖励,还最大化检索策略的熵 H\mathcal{H}H:
J(π)=Eτ∼p[∑t=0T−1[R(st,at)+αH(μ(⋅∣st,Mt))]] J(\pi) = \mathbb{E}_{\tau \sim p} \left[ \sum_{t=0}^{T-1} [R(s_t, a_t) + \alpha \mathcal{H}(\mu(\cdot|s_t, M_t))] \right] J(π)=Eτ∼p[t=0∑T−1[R(st,at)+αH(μ(⋅∣st,Mt))]]
其中 α\alphaα 是控制熵权重的超参数。 -
软Q函数与最优策略:
在此框架下,可以推导出最优检索策略 μ∗\mu^*μ∗ 是一个关于最优软Q函数 Q∗(s,M,c)Q^*(s, M, c)Q∗(s,M,c) 的Softmax分布:
μ∗(c∣s,M)=exp(Q∗(s,M,c)/α)∑c′∈Mexp(Q∗(s,M,c′)/α) \mu^*(c|s, M) = \frac{\exp(Q^*(s, M, c)/\alpha)}{\sum_{c' \in M} \exp(Q^*(s, M, c')/\alpha)} μ∗(c∣s,M)=∑c′∈Mexp(Q∗(s,M,c′)/α)exp(Q∗(s,M,c)/α)
这个结论至关重要,因为它将学习最优策略的问题转化为了学习最优Q函数的问题。 -
Q函数的学习:
Q函数通过时序差分(TD)学习进行更新。其更新规则为:
Q(st,Mt,ct)←Q(st,Mt,ct)+η[rt+γαlog∑c′∈Mt+1exp(Q(st+1,Mt+1,c′))−Q(st,Mt,ct)] Q(s_t, M_t, c_t) \leftarrow Q(s_t, M_t, c_t) + \eta \left[ r_t + \gamma \alpha \log \sum_{c' \in M_{t+1}} \exp(Q(s_{t+1}, M_{t+1}, c')) - Q(s_t, M_t, c_t) \right] Q(st,Mt,ct)←Q(st,Mt,ct)+η rt+γαlogc′∈Mt+1∑exp(Q(st+1,Mt+1,c′))−Q(st,Mt,ct)
其中 η\etaη 是学习率。 -
Q函数实现方式:
由于状态sss和案例ccc是复杂的自然语言,直接学习Q表或一个简单的神经网络是困难的。Memento的实现对此进行了简化和创新:- 简化为单步: 在规划阶段,检索案例是一个单步决策,因此TD学习中的未来价值项(bootstrapping)可以被忽略。学习目标简化为直接预测立即奖励 rrr。
- 参数化Q函数: 由于深度研究任务中的奖励信号是二元的(成功为1,失败为0),可以将Q值学习问题看作一个二分类问题。因此,用一个神经网络 Q(s,c;θ)Q(s, c; \theta)Q(s,c;θ) 来预测给定当前状态sss和候选案例ccc,任务成功的概率 p(r=1∣s,c;θ)p(r=1|s, c; \theta)p(r=1∣s,c;θ)。损失函数也从均方误差(MSE)改为更稳定的交叉熵(CE)损失:
L(θ)=E(s,c,r)[−rlogQ(s,c;θ)−(1−r)log(1−Q(s,c;θ))] \mathcal{L}(\theta) = \mathbb{E}_{(s,c,r)} [-r \log Q(s, c; \theta) - (1-r) \log(1-Q(s, c; \theta))] L(θ)=E(s,c,r)[−rlogQ(s,c;θ)−(1−r)log(1−Q(s,c;θ))]
伪代码与执行流程 (Algorithm 1)
Algorithm 1: Fine-tuning CBR agent with soft Q-learning and state similarity
Require: Kernel network params θ, LLM policy p_LLM, entropy α, discount γ, learning rate η, etc.
1: Initialize target retrieval network θ̄ ← θ
2: for timestep t = 0, 1, 2, ... do
3: Retrieve: Sample case c_t ~ μ_θ(· | s_t, M_t)
4: Reuse & Revise: Sample action a_t ~ p_LLM(· | s_t, c_t)
5: Execute a_t and observe reward r_t and next state s_{t+1}
6: Retain: M_{t+1} = M_t ∪ {(s_t, a_t, r_t)}
7: Store transition in replay buffer B
8: Append Episodic Memory D
9: Sample mini-batch from B
10: θ ← θ - η ∇_θ L_i // Update policy
11: if t mod K == 0 then
12: θ̄ ← βθ̄ + (1-β)θ // Update target network
13: end if
14: end for
- 伪代码描述: 该算法清晰地展示了Memento的在线学习循环。在每个时间步,智能体首先检索一个历史案例,然后利用LLM复用和调整该案例生成当前动作。执行动作后,获得奖励和新状态。新的经验被保留在记忆库中,并存入一个回放缓冲区。智能体从缓冲区中采样,计算损失并更新检索策略网络(参数θ\thetaθ)。为了稳定训练,还会定期更新一个目标网络θˉ\bar{\theta}θˉ。
实验设置
-
数据集:
- GAIA: 评估长时程规划和工具使用能力,分为3个难度等级。
- DeepResearcher: 一个包含7个开放域问答数据集(如NQ, TQ, HotpotQA等)的集合,用于评估实时网页研究能力。
- SimpleQA: 评估事实性问答的准确性,对抗幻觉。
- HLE (Humanity’s Last Exam): 评估在长尾、专业领域的复杂推理能力。
-
对比基线:
- Prompt-based: CoT, CoT + RAG。
- Training-based: Search-r1-instruct, R1-Searcher, DeepResearcher (SOTA)。
-
评价指标:
- GAIA: 精确匹配(EM, Pass@3)。
- 其他数据集: 宏F1分数(Macro-F1)、部分匹配分数(Partial Match, PM),PM分数由GPT-4o-mini进行评估。
-
实现细节:
- 规划器 (Planner): GPT-4.1。
- 执行器 (Executor): o3 (用于GAIA), o4-mini (用于其他)。
- 非参数化CBR: 使用SimCSE进行句子编码和余弦相似度计算。
- 参数化CBR: Q函数为一个两层MLP,输入为SimCSE编码的状态和案例表示。
实验结果与分析
主结果与消融研究
Memento在所有基准测试中都展现了卓越的性能。
-
主结果:
- 在 DeepResearcher 上,Memento (F1 66.6%) 显著优于所有基线,包括强大的训练模型DeepResearcher (F1 51.8%)。
- 在 GAIA 上,Memento在验证集上达到87.88%的Pass@3,排名第一;在测试集上达到79.40%,在开源框架中排名靠前。
-
消融实验 (Component-wise Analysis):
实验通过逐步增加组件来验证各部分贡献:Offline Executor(仅LLM) →Online Executor(+工具) →Memento w/o CBR(+规划) →Memento(+CBR)。- 工具的重要性: 从
Offline到Online,性能大幅提升(如SimpleQA F1从19.7%到48.5%),证明了实时检索和工具执行的价值。 - 规划的重要性: 增加规划器后 (
Memento w/o CBR),性能再次显著提升(SimpleQA F1从48.5%到81.0%),说明显式的任务分解和协调至关重要。 - CBR的价值: 最后加入CBR (
Memento),性能得到持续且稳健的增益(SimpleQA F1从81.0%到84.7%;DeepResearcher F1从59.9%到66.6%)。这清晰地证明了从历史经验中学习的核心机制是有效的。
- 工具的重要性: 从
持续学习与泛化能力
-
持续学习曲线 (图1c, 表4):
在DeepResearcher数据集上进行的5轮迭代学习中,Memento w/o CBR的性能随着迭代次数的增加而提升,而带有CBR的完整版Memento不仅起点更高,且学习曲线更陡峭,5轮后达到更高性能。这直观地展示了其持续学习的能力。 -
泛化能力 (OOD Performance, 图1d):
将在NQ、TQ等数据集上收集的案例用于MusiQue、Bamboogle等OOD任务时,CBR带来了**4.7%到9.6%**的绝对性能提升。这表明Memento学习到的经验具有良好的泛化性,能够迁移到问题风格和信息分布不同的新任务上。 -
超参数分析 (K的选择, 表3):
实验发现,检索案例的数量 K=4 时性能达到最佳。当K继续增大时,性能趋于平稳甚至略有下降。这说明“少而精”的高质量案例比大量的案例更有效,凸显了案例选择和记忆库管理的重要性。
| 方法 | NQ (F1/PM) | TQ (F1/PM) | HotpotQA (F1/PM) | 2Wiki (F1/PM) | Musique (F1/PM) | Bamboogle (F1/PM) | PopQA (F1/PM) | Avg (F1/PM) |
|---|---|---|---|---|---|---|---|---|
| DeepResearcher (SOTA) | 39.6/61.9 | 78.4/85.0 | 52.8/64.3 | 59.7/66.6 | 27.1/29.3 | 71.0/72.8 | 48.5/52.7 | 51.8/60.5 |
| Memento (Ours) | 42.0/74.6 | 85.5/93.9 | 66.5/81.6 | 81.4/94.1 | 40.6/53.3 | 86.2/92.8 | 64.0/72.5 | 66.6/80.4 |
复现性清单
- 代码/数据: 论文提供了GitHub链接:
https://github.com/Agent-on-the-Fly/Memento,代码已开源。 - 模型权重: 依赖于公开的API模型(如GPT-4.1)和开源模型(如SimCSE),无需提供自定义权重。
- 环境与依赖版本: 论文未详细说明。
- 运行命令、配置文件: 未在论文中提供,预计在代码库中。
- 评测脚本: 论文清晰定义了评价指标,PM分数依赖于LLM作为评估器,这是一种新兴但需要注意其稳定性的评估方法。
结论与未来工作
- 结论: Memento成功地提出并验证了一种创新的、基于记忆的LLM智能体学习范式。该方法通过将学习任务聚焦于外部记忆的检索策略,实现了在不微调LLM参数的前提下进行高效的在线持续学习。论文通过严谨的M-MDP形式化、软Q学习推导以及在多个高难度基准上的实验,证明了该方法的有效性。消融研究明确了参数化和非参数化CBR对于性能提升的关键作用,并指出一个小的、精心管理的记忆库即可达到最优效果。
- 未来工作: 本文的研究成果为未来基于记忆的MDP框架在深度研究任务中的应用开辟了道路,未来的研究方向可能包括更复杂的记忆管理和重写机制、更大规模记忆库的扩展性问题,以及在更开放、更动态的环境中的应用。更动态的环境中的应用。
火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐
所有评论(0)