【RAG优化】RAG回答质量优化

提升rag系统回答质量，提供更精准的意见分析。

weixin_37763484

1399人浏览 · 2025-06-05 10:50:03

weixin_37763484 · 2025-06-05 10:50:03 发布

提升检索增强生成（RAG）系统中生成阶段性能的先进技术

1. 引言

1.1. RAG 性能中生成阶段的关键作用

检索增强生成（Retrieval-Augmented Generation, RAG）系统通过整合外部知识库来增强大型语言模型（Large Language Models, LLMs），已成为解决 LLM 固有局限性（如知识过时和幻觉）的关键技术。RAG 的核心思想是在生成回应之前，先检索与用户查询相关的最新信息，并将这些信息作为上下文提供给 LLM 1。虽然检索（Retrieval）和重排序（Re-ranking）阶段对于提供高质量、相关的上下文至关重要，但 RAG 系统的最终输出质量和准确性在很大程度上取决于生成（Generation）阶段 1。生成器（通常是一个 LLM）负责理解、综合检索到的上下文，并基于这些证据生成连贯、准确且忠实于原文的回应 8。如果生成阶段无法有效利用提供的上下文，或者在推理过程中引入错误，那么即使检索和重排序阶段做得再好，整个 RAG 系统的价值也会大打折扣 10。因此，优化生成阶段是实现 RAG 系统高性能的关键环节。

1.2. RAG 生成面临的挑战概述

尽管 RAG 带来了显著优势，但其生成阶段仍面临诸多挑战：

上下文利用率（Context Utilization）：LLM 在处理长上下文或包含多个检索文档片段的上下文时，往往难以有效利用所有信息。特别是，“迷失在中间（Lost in the Middle）”现象指出，模型倾向于关注上下文的开头和结尾部分，而忽略中间的关键信息 11。此外，检索到的上下文可能包含噪声、冗余信息或相互矛盾的内容，这会干扰 LLM 的理解和生成过程，甚至引入错误 2。处理由分块（Chunking）策略产生的碎片化上下文也是一大难题，可能导致信息不连贯 22。
忠实度与幻觉（Faithfulness and Hallucination）：确保生成内容严格依据所提供的上下文，并且不捏造事实（即忠实度），是 RAG 的核心目标之一。然而，LLM 自身的参数化知识（训练期间学到的知识）可能与检索到的上下文信息发生冲突 26。在这种情况下，LLM 可能难以判断应优先依赖哪种知识源，从而导致生成不忠实于上下文甚至产生幻觉的内容。
推理（Reasoning）：许多现实世界的查询需要基于从多个检索文档中收集的证据进行复杂的、多步骤的推理 35。标准的生成过程可能难以有效整合分散的证据并执行逻辑连贯的推理链，导致答案不完整或逻辑错误。

这些挑战表明，仅仅优化检索和重排序是不够的。RAG 系统的性能上限很大程度上受限于生成阶段处理和利用上下文、保持忠实度以及进行复杂推理的能力。因此，开发针对生成阶段的优化技术至关重要。

1.3. 报告目标与结构

本报告旨在深入探讨和分析当前用于优化 RAG 系统生成阶段性能的先进技术。假设检索和重排序阶段已得到优化，本报告将重点关注如何使 LLM 更好地利用给定的上下文信息，以提高最终答案的准确性、忠实度和整体质量。具体来说，报告将涵盖以下几个方面：优化上下文处理以提高利用率和减少噪声、利用提示工程引导基于证据的生成和推理、通过微调使 LLM 适应 RAG 任务、增强生成内容忠实度和减少幻觉的技术、以及利用 Agentic 或 Modular RAG 架构进行答案的迭代优化和验证。最后，报告将结合基准测试和实践案例，分析不同优化技术的实际效果。

本报告的结构安排如下：第二部分讨论优化上下文处理的方法；第三部分探讨适用于 RAG 生成的提示工程技巧；第四部分介绍针对 RAG 场景微调 LLM 的方法；第五部分聚焦于提升忠实度和减少幻觉的技术；第六部分探索 Agentic/Modular RAG 在生成优化中的应用；第七部分进行不同技术的基准比较分析；第八部分总结并展望未来方向。

2. 优化生成阶段的上下文处理

为了让 LLM 在生成阶段更好地利用检索到的信息，需要对上下文进行有效处理，以应对信息冗余、噪声干扰、上下文过长以及碎片化等问题。

2.1. 上下文压缩与选择技术

检索到的上下文通常包含大量与查询不直接相关或冗余的信息，这不仅增加了 LLM 处理的计算负担，还可能引入噪声，干扰模型的注意力，甚至导致性能下降 2。上下文压缩或选择技术旨在保留最关键的信息，同时去除噪声和冗余。

LLMLingua 及其变体：LLMLingua 是一种提示压缩技术，它利用小型语言模型来识别和移除原始提示（包括检索到的上下文）中不太重要的词语或标记，同时尽量保持其核心语义和 LLM 的理解能力 19。它通过一个预算控制器来为提示的不同部分（如指令、上下文、示例）分配不同的压缩率 19。虽然 LLMLingua 在减少提示长度方面有效，但它被批评为缺乏对上下文内容的感知，难以确定针对特定 LLM 的最优压缩率，可能导致信息过度压缩或冗余信息残留 19。
AttentionRAG：AttentionRAG 提出了一种基于注意力机制的上下文剪枝方法，旨在更精确地识别和保留与查询最相关的上下文部分 19。其核心是“注意力聚焦机制”：首先，将 RAG 查询重新表述为下一个词元预测任务，生成一个不完整的“答案提示前缀”（例如，对于问题“Daniel 在哪里？”，生成前缀“Daniel 在 ___”）19。这个空缺的词元（焦点词元）代表了查询的语义焦点。然后，将检索到的上下文分块，对于每个块，将块内容、原始查询和答案提示前缀输入 LLM，计算焦点词元相对于上下文块中每个词元的注意力分数，并跨层聚合 20。最后，选择包含注意力分数最高的 top-k 词元的句子，组合成压缩后的上下文块 20。如果模型预测焦点词元为“none”，则该块被视为不相关并跳过 20。AttentionRAG 的优势在于它利用 LLM 自身的注意力机制来评估上下文的相关性，实现了与查询内容更紧密的对齐。实验表明，AttentionRAG 可以在 LongBench 和 Babilong 等基准上实现高达 6.3 倍的上下文压缩，同时在关键指标上优于 LLMLingua 方法约 10%，且无需额外训练 19。
面向任务的查询无关压缩（Task-Aware Query-Agnostic Compression）：这种方法试图在效率和相关性之间取得平衡 42。它不是为每个查询重新压缩上下文，而是预先计算一个针对更广泛任务上下文（可以通过零样本描述或少量代表性示例定义）定制的压缩缓存 42。压缩只进行一次，生成的表示可以在该任务领域内的任何查询中重复使用，从而避免了实时检索和预填充（Prefilling）的开销 42。研究表明，这种方法在需要综合处理分散信息的广泛知识任务中，性能显著优于 RAG，并且可以大幅降低推理延迟 42。

2.2. 提升长上下文和碎片化上下文的利用率

随着 LLM 处理上下文窗口能力的增强，如何有效利用更长的上下文，以及如何处理由分块策略导致的碎片化上下文，成为 RAG 生成优化的重要方向。

挑战：标准 RAG 方法通常将文档分割成较小的块进行检索，这可能导致上下文信息丢失或不连贯，例如指代关系断裂 22。同时，LLM 在处理非常长的上下文时，会遇到“迷失在中间”的问题，即模型难以有效利用位于上下文中间部分的信息 11。
RetroLM：RetroLM 提出了一种新颖的 RAG 框架，通过在键值缓存（KV Cache）层面进行检索增强来处理长上下文 22。它将 LLM 的 KV 缓存划分为连续的页面（Pages），并在预填充和解码阶段仅检索最关键的页面进行计算 22。具体流程包括：在每个页面末尾添加特殊的“书签标记”作为页面索引；在预填充阶段使用流式编码和页面检索（只关注前 k 个页面）；在解码阶段根据查询检索 top-k 关键页面 23。这种 KV 层面的检索增强带来了几个优势：
- 对检索不准确的鲁棒性：即使检索的初始词元范围不完全精确，相关信息仍可能通过后续 KV 存在于检索到的页面中 22。
- 有效利用碎片化上下文：LLM 的注意力机制具有稀疏性，使其能够自然地适应和利用碎片化的 KV 缓存页面，即使原始文本不连贯 22。
- 减少重复计算：整个输入上下文的 KV 缓存只需计算一次，并在后续检索中重用，避免了传统 RAG 中对检索到的词元进行重复预填充的开销 22。
- 固定 KV 预算：通过检索有限数量的页面，RetroLM 在预填充和解码期间都保持固定的 KV 预算，有效控制了内存消耗 24。实验表明，RetroLM 在长上下文基准测试中表现优异，尤其是在需要密集推理或极长上下文理解的任务上 22。
通用 KV 缓存重用策略：更广泛地，KV 缓存重用是优化多阶段 LLM 工作流（包括 RAG）的关键技术 17。由于 RAG 中不同查询可能检索到重叠的文档块，预先计算并重用这些块的 KV 缓存可以显著减少冗余计算和延迟 45。系统如 HyperRAG 专注于重用重排序器（Reranker）计算出的文档 KV 缓存供生成器（Generator）使用 46，而 KVLink 则提出独立预计算每个文档块的 KV 缓存，在推理时将所需块的缓存连接起来，并通过调整位置嵌入和使用可训练的特殊“链接词元”来缓解独立编码带来的性能下降 50。这些方法在提高吞吐量和减少首词元生成时间（TTFT）方面显示出巨大潜力 47，但也需要解决缓存存储和管理（可能需要 TB 级别的存储）以及潜在性能下降的问题 47。

2.3. 上下文信息排序对生成结果的影响及优化

研究表明，提供给 LLM 的上下文中信息的排列顺序会显著影响其利用信息的能力和最终的生成质量。

“迷失在中间”效应：如前所述，LLM 倾向于更好地利用位于上下文开头和结尾的信息，而忽略中间部分的信息 15。这意味着在 RAG 中，如果将多个检索到的文档简单地拼接在一起，处于中间位置的关键文档可能无法被有效利用 12。
相关性排序的重要性：实验证实，将最相关的文档块放在上下文的开头或结尾，可以提高 LLM 的性能 57。因此，在检索和重排序之后，对最终选定的上下文块进行有策略的排序对于优化生成至关重要。
优化策略：
- 重排序（Re-ranking）：后处理重排序不仅是为了选出最相关的 K 个文档，也是为了将最关键的文档排在最前面（或最后面），以对抗“迷失在中间”效应 2。例如，可以使用交叉编码器（Cross-encoder）模型对初步检索到的文档进行更精细的相关性评分和排序 59。
- 检索重排序（Retrieval Reordering）：针对长上下文 RAG 中即使增加检索文档数量也可能导致性能下降（由于引入“硬负例”噪声）的问题，有研究提出在训练后进行检索重排序，将最相关的文档移到上下文的边缘位置，以提高模型对其的关注度 16。
- 分块策略的间接影响：虽然分块主要影响检索，但其策略（如句子窗口、小块到大块、层次化分块）决定了传递给生成器的上下文单元的粒度和连贯性，间接影响了生成器对信息的利用 12。例如，层次化分块（如 RAPTOR、HIRO、MAL-RAG）通过提供不同抽象层级的上下文（摘要、段落、完整文档），可能有助于 LLM 更好地把握全局信息，缓解“迷失在中间”的问题 12。

表 1: RAG 生成阶段上下文处理技术对比

技术

主要目标

核心机制

关键性能影响

优点

缺点/挑战

相关文献

LLMLingua

上下文压缩

基于小模型的预算控制压缩

降低提示长度，可能牺牲信息

实现简单，降低计算成本

缺乏上下文感知，压缩率难控制，可能过度压缩或保留冗余

AttentionRAG

上下文压缩/剪枝

基于注意力焦点的下一个词元预测，选择高注意力得分句子

高达 6.3x 压缩，性能优于 LLMLingua 约 10%，无需训练

上下文感知强，压缩效果好，无需训练

计算注意力分数有额外开销

面向任务的查询无关压缩

上下文压缩，提高效率

预计算针对任务的压缩缓存

在广泛知识任务中优于 RAG，显著降低延迟

缓存可重用，推理效率高

压缩效果依赖于任务定义的质量

RetroLM

长上下文/碎片化上下文处理

KV 缓存分片与检索

显著提升长上下文任务性能，鲁棒性强

高效处理长上下文，对检索不准/碎片化上下文鲁棒，减少重复计算

需要专门的检索器和后训练

通用 KV 缓存重用

提高效率，降低延迟

重用预计算的文档/重排序器 KV 缓存

显著提高吞吐量（2-3x），降低 TTFT（高达 90%）

大幅减少冗余计算，提高效率

可能需要大量存储空间，朴素重用可能降低性能，需要特殊处理（如 KVLink 的链接词元）

上下文重排序（边缘化）

优化长上下文利用率

将最相关的文档块移动到上下文的开头或结尾

缓解“迷失在中间”问题，提高模型对关键信息的利用率

简单有效，训练无关

可能仍受限于上下文窗口大小

层次化分块/检索 (生成端)

优化长上下文利用率，提供多粒度信息

使用文档的层次结构（摘要、章节、段落）进行检索和上下文构建

可能缓解“迷失在中间”，提供更丰富的上下文

提供不同抽象层次的信息，适应不同查询需求

实现相对复杂，需要预处理文档结构

上下文处理技术的发展趋势清晰地表明，从简单的长度控制（如截断）或基于规则的压缩，正转向更深入地理解上下文内容与查询之间、以及上下文内部结构关系的复杂方法。无论是通过注意力机制聚焦关键信息（AttentionRAG），还是在更底层的 KV 缓存层面进行检索（RetroLM），或是利用文档的层次结构，目标都是为了让 LLM 在生成答案时，能够更智能、更高效地利用其接收到的信息。这种转变认识到了 LLM 生成器并非一个被动的接收者，其处理上下文的方式直接影响最终输出质量。同时，效率的考量也日益重要，KV 缓存重用等技术旨在平衡长上下文处理能力与计算资源消耗之间的矛盾。然而，这些高级技术也带来了新的挑战，例如如何最优地设计注意力焦点、如何管理庞大的 KV 缓存、以及如何确保这些复杂的处理过程本身不引入新的错误或偏差。对这些技术的评估，不能仅仅看压缩率或延迟降低，更要关注其对下游生成任务准确性、忠实度的实际影响，以及在不同长度、噪声水平和信息排序下的鲁棒性 16。

3. RAG 生成阶段的提示工程

提示工程（Prompt Engineering）在 RAG 系统中扮演着至关重要的角色，它直接影响 LLM 如何理解任务、如何利用提供的上下文以及最终生成答案的质量和风格 2。在生成阶段，精心设计的提示可以引导 LLM 更有效地整合检索到的信息，进行基于证据的推理，并确保生成内容的忠实性。

3.1. 设计引导 LLM 基于上下文回答的提示词

构建有效的 RAG 提示需要明确指示 LLM 其角色、任务、可用信息以及期望的输出格式。

明确指令与角色扮演：提示应清晰地告知 LLM 其任务是基于提供的上下文来回答问题 83。可以设定一个角色，比如“你是一个基于提供的文档回答问题的助手”。
清晰标识上下文：将检索到的文档片段与用户问题清晰地分开，并用明确的标签标识，例如使用、`` 或类似的标记 83。这有助于 LLM 区分问题和证据。
强调基于上下文生成：在指令中明确要求 LLM 仅使用提供的上下文信息来生成答案，并避免依赖其内部知识或进行猜测 10。例如，“根据以上提供的文档回答以下问题。请确保你的答案完全基于所给的文档内容。”
解释上下文来源和性质：告知 LLM 上下文的来源（例如，“以下是从相关法律条款中检索到的片段”）有助于模型更好地理解信息的权威性和适用范围 83。
处理信息不足的情况：明确指示 LLM 在上下文信息不足以回答问题时的行为方式。与其让模型猜测或“幻觉”出答案，不如指示其明确说明信息不足 83。例如，“如果提供的文档不足以回答问题，请明确说明‘根据提供的资料无法回答该问题’。” 避免使用可能诱导幻觉的否定指令，如“不要编造答案” 83。
解释指令背后的原因：有时向 LLM 解释为什么要遵循某个指令（例如，“请保持简洁，因为用户可以看到全文”）可以提高指令遵循度 83。
结构化提示：将提示的不同部分（指令、上下文、问题、输出格式要求）结构化，例如使用 Markdown 标题或特定分隔符，可以提高 LLM 的理解能力 82。将最重要的指令放在提示的开头（Front-loading）通常更有效 82。
迭代优化：提示工程通常是一个迭代过程。需要通过实验和评估来不断调整措辞、结构和指令，以找到最适合特定模型和任务的提示 82。

3.2. 应用思维链（Chain-of-Thought）等技术引导基于证据的推理

对于需要复杂推理的 RAG 任务，简单地提供上下文和问题可能不足以让 LLM 得出正确答案。思维链（Chain-of-Thought, CoT）及其变体是强大的提示技术，可以引导 LLM 进行更深入、更可靠的基于证据的推理。

基本 CoT 原理：CoT 提示通过在示例（Few-shot CoT）或指令（Zero-shot CoT）中展示一步一步的推理过程，引导 LLM 在生成最终答案前先输出中间的推理步骤 35。这种显式的推理过程有助于 LLM 分解复杂问题，更系统地利用上下文信息，从而提高准确性 37。
在 RAG 中应用 CoT：可以在 RAG 提示中明确要求 LLM 生成一个基于所提供上下文的推理链，然后再给出最终答案 38。例如，“请根据提供的文档，逐步推理并回答以下问题。请先列出你的推理步骤，然后再给出最终答案。”
CoT 与引用结合：为了进一步增强忠实度，可以要求 LLM 在其推理链的每一步都引用支持该步骤的具体上下文片段 38。这在 RAFT 等微调方法中被用作训练信号，但在提示工程中同样适用。
CoT 变体：
- Thread of Thought (ToT)：适用于长对话或长上下文 RAG，提示模型逐步处理上下文，边处理边总结和分析，以保持思维连贯性 37。
- Auto-CoT：通过问题聚类和零样本 CoT 自动生成 CoT 示例，减少了手动设计 CoT 提示的工作量 37。
- Faithful CoT：旨在解决标准 CoT 中推理链与最终答案可能不一致（不忠实）的问题 35。

3.3. 保证 CoT 和生成回应的忠实度

虽然 CoT 可以引导推理，但并不能保证生成的推理过程是模型实际得出答案的过程，也不能保证最终答案严格遵循了推理链或原始上下文。

Faithful CoT：如前所述，Faithful CoT 通过两阶段过程确保忠实度 36：
1. 翻译（Translation）：LLM 将自然语言查询转换为结合了自然语言（问题分解）和符号语言（如 Python 代码）的推理链。
2. 问题解决（Problem Solving）：使用确定性求解器（如 Python 解释器）执行推理链中的符号部分，直接导出最终答案。由于答案是直接从可执行的推理链中得出的，因此保证了答案对推理过程的忠实性，提高了可解释性和准确性 36。然而，其“翻译”阶段仍然依赖 LLM，可能不够透明 36。
强调忠实度的提示指令：除了使用 Faithful CoT，也可以在提示中直接强调忠实度的重要性。例如，明确指示模型“你的答案必须严格基于提供的上下文”、“答案中的每一个论点都必须能在上下文中找到依据”、“如果上下文没有提供足够信息，请不要推测”。
要求引用：如前所述，要求模型在生成答案时引用具体的上下文来源，是增强忠实度的有效手段 2。这迫使模型将其声明与证据联系起来。

将 RAG 的上下文信息有效地传递给 LLM 并指导其生成高质量、忠实可靠的答案，提示工程是不可或缺的一环。简单的将检索到的文本块与问题拼接在一起，往往无法充分发挥 LLM 的潜力，甚至可能因信息冗余或冲突而导致性能下降。因此，需要设计能够清晰界定任务、明确上下文作用、引导推理过程并强调忠实度的复杂提示结构。思维链等技术为处理需要多步推理的复杂 RAG 任务提供了有效途径，而 Faithful CoT 等方法则进一步尝试解决推理过程本身的可信度问题。实践中，找到最优的提示策略往往需要针对具体模型、任务和数据进行大量的实验和迭代优化 82。

4. 微调 LLM 以提升 RAG 生成质量

虽然 RAG 可以通过提供外部知识来增强预训练 LLM 的能力，但 LLM 本身可能并未针对 RAG 任务进行优化。它可能不擅长区分相关与无关的上下文，或者在生成答案时过度依赖其内部的参数化知识而非提供的上下文。通过专门针对 RAG 场景对 LLM 进行微调（Fine-tuning），可以显著提升其在 RAG 任务中的生成质量、忠实度和效率 1。

4.1. 领域特定 RAG 微调原理

目标：微调的目标是让 LLM 学习如何在 RAG 的“开卷考试”场景下表现更好：即当给定一个问题和一组可能包含相关信息和干扰信息的检索文档时，能够准确地利用相关信息回答问题，同时忽略无关信息 38。这与传统的“闭卷”微调（只学习知识）或标准的指令微调（学习遵循指令）不同。
RAG vs. 微调：RAG 和微调是两种不同的增强 LLM 的方法，但可以互补 1。RAG 在推理时提供外部知识，适用于需要最新信息或访问私有数据的场景 98。微调则修改模型参数，使其内化领域知识或特定技能/风格 98。针对 RAG 的微调旨在优化模型使用检索上下文的能力，而非仅仅学习上下文中的知识。
参数高效微调（PEFT）：由于全参数微调 LLM 计算成本高昂，PEFT 技术如 LoRA（Low-Rank Adaptation）、QLoRA（Quantized LoRA）、DoRA（Weight-Decomposed LoRA）等被广泛应用于 RAG 微调 94。这些技术通过只训练少量额外参数或模型参数子集，显著降低了计算和内存需求，同时能达到接近全参数微调的效果，并有助于缓解灾难性遗忘 94。

4.2. RAFT（Retrieval-Augmented Fine-Tuning）及其变体

RAFT 是专门为优化 LLM 在领域特定 RAG 任务中性能而设计的开创性微调方法 38。

RAFT 核心思想：RAFT 通过模拟带有干扰信息的“开卷考试”场景来训练模型 38。其训练数据点包含：问题（Q）、一组文档（Dk，包含能回答问题的“黄金”文档 D* 和无关的“干扰”文档 Di），以及一个基于 D* 生成的、包含推理过程（如 CoT）和原文引用（Citation）的答案（A*）38。
训练机制：RAFT 采用混合训练策略。对于 P% 的训练样本，模型接收 Q、D* 和干扰文档 Dk-1，并被训练生成 A*；对于剩余的 (1-P)% 样本，模型只接收 Q 和干扰文档 Dk，同样被训练生成 A*（此时 A* 可能指示无法回答）38。这种设计迫使模型学习区分相关和无关文档，并在仅有干扰信息时避免幻觉或依赖内部知识 38。
CoT 与引用：RAFT 强调生成带有 CoT 推理链和精确原文引用的答案 38。这不仅提高了答案的准确性和可解释性，也迫使模型更仔细地阅读和理解相关文档，并将其断言与证据锚定 38。
RAFT 的局限性：尽管 RAFT 效果显著，但后续研究指出其可能存在“条件记忆偏差”（模型根据训练时是否总是有黄金文档，而偏向于依赖或忽略上下文）和“标准答案过拟合”（模型只学会生成训练数据中特定措辞的答案）的问题 90。
PA-RAG（Paraphrase Augmentation for RAG）：PA-RAG 旨在解决 RAFT 的上述局限性 90。它引入了两种数据增强技术：
- 上下文增强（Context Augmentation）：通过混合 RAFT(0)（只有干扰文档）、RAFT(1)（只有黄金文档）和 RAFT(p)（混合）三种场景的训练数据，明确地教模型识别上下文的相关性，并据此决定是利用还是忽略它 90。
- 答案复述（Answer Paraphrasing）：为每个训练问题生成多个不同风格和措辞的正确答案，迫使模型学习知识本身而非特定答案格式，从而减轻过拟合 90。PA-RAG 在多个基准上显示出比 RAFT 更优的性能，尤其是在需要依赖模型内部知识（检索失败）的情况下 90。相关实现细节可在 GitHub 找到 123。
CoR（Chain-of-Rank）：CoR 提出了一种简化 RAFT 推理过程的方法 121。它训练模型先输出相关上下文块的 ID（排序），然后再生成最终答案。通过将复杂的 CoT 推理简化为相关性排序，CoR 旨在降低模型的认知负荷和计算复杂度，同时让模型更专注于关键信息 121。
ALoFTRAG（Automatic Local Fine-Tuning for RAG）：ALoFTRAG 提供了一种无需人工标注数据或大型教师模型即可进行领域自适应 RAG 微调的框架 96。其流程包括：
1. 使用基础 LLM 过滤掉信息量低的原始文本块。
2. 使用基础 LLM 基于剩余文本块生成合成的（问题，答案）对。
3. （可选）使用基础 LLM 过滤掉低质量的合成 Q&A 对。
4. 为每个问题选择“硬负例”（语义相似但包含错误答案的文本块）。
5. 使用合成的 Q&A、黄金文本块和硬负例文本块，通过 LoRA 对基础 LLM 进行微调。训练目标是让模型先输出正确文本块的序号，再生成答案 96。 ALoFTRAG 的优势在于其自动化、低成本和数据安全性（可在本地完成），使得在特定领域（尤其是敏感领域如医疗、金融）部署 RAG 更为便捷 96。GitHub 上提供了相关代码实现 97。

4.3. 训练 LLM 更好地区分相关与无关上下文

提升 LLM 在 RAG 场景下的一个核心能力是区分并优先利用相关上下文，同时忽略或低权处理无关或干扰信息。

利用干扰文档进行训练：RAFT 及其变体（如 PA-RAG）的核心思想就是通过在训练数据中显式加入干扰文档，迫使模型学习这种区分能力 38。模型需要判断哪些文档（D*）对于回答问题 Q 是有用的，哪些（Di）是无关的。
硬负例挖掘：在 ALoFTRAG 中使用的硬负例选择策略，即挑选与问题语义相似但答案错误的文档作为负样本，对训练模型区分细微差别至关重要 96。这比随机选择负样本更能提升模型的判别能力。
指令微调与 RAG 结合：可以通过指令微调（Instruction Tuning）来训练模型更好地遵循 RAG 相关的指令，例如“仅根据提供的相关文档回答问题”或“如果文档不相关，请指出” 91。一些研究探索了将通用指令微调与 RAG 特定的微调相结合。
序列级蒸馏：当使用标准问答数据集进行 RAG 微调时，模型可能难以泛化到域外任务。研究发现，使用教师模型生成的更连贯的标签进行序列级蒸馏，可以提高模型在域外 RAG 任务中的表现，这表明学习如何连贯地利用上下文比简单地匹配标签更重要 91。

4.4. 训练 LLM 忠实于相关上下文

除了区分相关性，微调还应着重训练 LLM 在生成答案时忠实于被识别为相关的上下文。

引用作为训练信号：RAFT 要求模型在生成 CoT 答案时，必须从黄金文档中逐字引用证据 38。这种强制引用机制直接训练模型将其输出锚定在提供的上下文上。
基于反事实数据的微调：一种直接增强忠实度的方法是在反事实数据上进行微调，即提供的上下文与模型的内部知识相矛盾 34。训练模型在这种情况下优先遵循上下文，可以显著提高其忠实度。然而，这种方法存在一个明显的权衡：它可能会损害模型利用其内部知识的准确性 34。
偏好优化：可以使用偏好学习方法（如 DPO、RPO）来训练模型更倾向于生成忠实于上下文的答案。例如，可以构建偏好对，其中一个答案忠实于上下文，另一个则不然（可能基于内部知识或产生幻觉），然后训练模型偏好前者。RPO 特别设计用于 RAG 场景，考虑了检索相关性来调整奖励。

表 2: RAG 特定微调方法对比

方法

核心目标

训练机制

数据需求

主要优点

主要局限/权衡

相关文献

RAFT

领域适应 RAG，处理干扰文档

混合黄金/干扰文档，CoT+引用答案生成

领域 Q&A 对，文档

提升域内 RAG 性能，增强对干扰信息的鲁棒性

可能存在条件记忆偏差和标准答案过拟合

PA-RAG

克服 RAFT 局限性，改进知识注入

上下文增强 (CA-RAFT) + 答案复述

领域 Q&A 对，文档，合成复述答案

减轻偏差和过拟合，提升 RAG 性能（尤其在检索失败时），保持通用能力

数据增强过程相对复杂

CoR

简化 RAFT 推理，降低复杂度

训练模型先输出相关文档 ID，再生成答案

领域 Q&A 对，文档

降低认知负荷和计算复杂度，专注于关键信息

可能牺牲部分复杂推理能力

121

ALoFTRAG

无标签/教师模型的本地领域自适应 RAG 微调

过滤文本，合成 Q&A，挖掘硬负例，LoRA 微调（预测正确文档序号+答案）

领域无标签文档

自动化，低成本，数据安全，无需人工标注或教师模型

性能可能依赖于基础 LLM 的合成数据能力；过滤步骤可能有害

反事实微调

提升上下文忠实度

在上下文与内部知识冲突的数据上训练模型优先遵循上下文

反事实 Q&A 对

显著提高忠实度

可能损害模型内部知识的准确性

序列级蒸馏

提升 RAG 泛化能力

使用教师模型生成的更连贯标签进行微调

领域 Q&A 对，教师模型输出

提高域外 RAG 性能

需要高质量的教师模型

RAG 的微调技术正从简单的领域知识注入，发展到更侧重于训练 LLM 掌握 RAG 任务本身所需的特定技能。这包括如何有效地从包含干扰信息的混合上下文中提取和利用相关证据，以及如何生成既准确又忠实于这些证据的答案，通常还需要伴随清晰的推理过程和引用。RAFT 及其变体代表了这一方向的重要进展，它们通过在训练中模拟真实的 RAG 推理场景（包括不完美的检索）来提升模型的鲁棒性和实用性。同时，ALoFTRAG 等方法探索了如何在缺乏标注数据的情况下，利用 LLM 自身的生成能力来创建训练信号，这为低资源或需要保护数据隐私的场景提供了可行的解决方案。这些进展表明，未来的 RAG 系统很可能会越来越多地采用经过专门微调的 LLM，以充分发挥检索增强的潜力。然而，选择哪种微调策略，以及如何在提升 RAG 特定能力与保持模型通用性、内部知识准确性之间取得平衡，仍然是实践中需要仔细权衡的问题 34。

5. 提升生成内容的忠实度与减少幻觉

幻觉（Hallucination）——即生成看似合理但与事实不符或与给定上下文相悖的内容——是 LLM 和 RAG 系统面临的核心挑战之一。提升生成内容的忠实度（Faithfulness），确保其严格基于提供的上下文或已验证的知识，对于构建可信赖的 RAG 应用至关重要。

5.1. 控制 LLM 对内部参数知识与外部上下文知识的依赖度

RAG 系统中的幻觉常常源于 LLM 的内部参数化知识（训练期间学习到的信息）与检索到的外部上下文信息之间的冲突 26。当外部上下文不可靠（例如，检索错误或包含过时信息）或 LLM 的内部知识更权威时，模型需要能够智能地判断应优先采信哪一方。反之，当外部上下文是权威且最新的，模型应优先遵循上下文，即使它与其内部知识相悖。开发能够在推理时动态控制这种知识依赖性的方法是减少幻觉、提高忠实度的关键。

CK-PLUG (Controllable Knowledge Plug-in)：CK-PLUG 是一种无需修改模型参数、即插即用的推理时方法，旨在实现对 LLM 依赖参数知识还是上下文知识的细粒度控制 26。
- 知识冲突检测：它引入了一个名为“置信度增益（Confidence Gain）”的新指标，通过测量在引入上下文后，模型预测下一个词元的概率分布的熵（不确定性）变化来检测知识冲突 26。负的置信度增益表明上下文引入了冲突或降低了模型的预测置信度。
- 依赖度控制：对于置信度增益为负的词元（表明存在冲突），CK-PLUG 使用一个可调参数 α 来加权融合模型的参数化知识预测概率和上下文知识预测概率 26。通过调整 α，用户可以控制模型更倾向于依赖内部知识还是外部上下文。对于置信度增益为正的词元（表明一致），则保留原始的上下文感知预测。
- 自适应模式：CK-PLUG 还提供了一个自适应（无 α）模式，该模式基于模型对内部知识和外部上下文的置信度（通过熵或困惑度衡量）自动计算 α 值，动态平衡知识依赖 26。
- 效果：实验表明，CK-PLUG 能够显著调节模型在反事实 RAG 场景中的知识依赖度（例如，大幅调整记忆召回率 MR），同时保持生成流畅性和知识准确性，并在通用 RAG 任务中通过自适应控制实现性能提升 26。
CaLE (Context-aware Layer Enhancement)：CaLE 是另一种推理时方法，它不直接调整输出概率，而是关注 LLM 内部状态中上下文信息的处理 134。
- 机制：通过 V-usable 信息分析识别出模型内部对上下文信息响应最强的中间层（上下文感知层），然后在该层通过放大或残差连接等方式增强表示，以促进上下文信息更有效地流向最终输出层 134。其动机在于观察到上下文信息在 LLM 的更深层可能出现波动甚至衰减 134。
- 效果：CaLE 能有效改善模型在问答任务中对上下文的忠实生成，尤其是在处理未知或冲突的上下文知识时 134。
RPO (Retrieval Preference Optimization)：RPO 是一种轻量级的对齐方法，使用强化学习来训练 LLM 根据检索相关性自适应地利用多源知识（参数知识 vs. 上下文知识）。
- 机制：RPO 通过模拟知识冲突场景，并结合对检索上下文相关性的量化评估，来指导奖励模型的设计。奖励模型会根据检索质量，自适应地奖励在冲突场景中选择了正确知识源（内部或外部）的答案。它解决了现有偏好优化算法（如 DPO）在 RAG 场景下可能无法正确优化知识源选择的问题。
- 效果：RPO 能显著提高 RAG 在多个基准上的性能，增强模型在面对多源知识冲突时的鲁棒性。
其他相关方法：还有研究探索通过在微调时加入可控标签来调节模型对参考知识的忠实度 31，或者通过探测模型内部激活来理解和干预知识源的选择过程 30。

这些方法的共同目标是赋予 RAG 系统在面对内部知识和外部上下文冲突时的判断能力，使其能够根据情况（如上下文的可靠性、内部知识的时效性）动态调整对两者的依赖程度，从而生成更忠实、更可靠的答案。

5.2. 对生成结果进行后处理验证或修正的技术

即使在生成阶段进行了优化，LLM 的输出仍可能包含细微的事实错误或不准确的引用。后处理（Post-processing）技术可以在答案最终呈现给用户之前，对其进行验证和修正，作为保障准确性和忠实度的最后一道防线。

CiteFix：CiteFix 是一种专门针对 RAG 系统中引用准确性问题的后处理技术 135。
- 问题背景：LLM 在 RAG 任务中生成答案时，常常难以准确地将答案中的每个论点与其对应的源文档（即引用）正确关联起来。研究表明，流行的生成式搜索引擎的引用准确率可能只有 74% 左右 135。
- CiteFix 流程：CiteFix 在 LLM 生成带引用的答案之后运行。它首先将生成的答案分解为独立的“事实点”（通常以引用标记分隔）。然后，对于每个事实点，它使用一种或多种交叉检查方法来计算该事实点与所有检索到的文档之间的相似度或相关性。最后，它将每个事实点的引用“修正”为得分最高的 N 个文档（N 为该事实点原始引用的数量）135。
- 交叉检查方法：CiteFix 探索了多种交叉检查方法 135：
  1. 关键词匹配：计算事实点和文档之间共享词元的数量。
  2. 关键词+语义上下文匹配：结合关键词匹配分数和文档相对于原始查询的检索相关性分数。
  3. BERTScore：使用 LongFormer 等模型计算事实点和文档中词元的上下文嵌入，并通过比较嵌入向量的余弦相似度来评估匹配度。
  4. 微调 BERTScore 模型：在领域数据上专门针对引用修正和事实蕴含任务微调 LongFormer 模型，以提高匹配准确性。
  5. 基于 LLM 的匹配：使用一个轻量级的 LLM（通过简单提示仅要求输出相关文档编号）来判断哪个文档最支持该事实点。
- 效果：CiteFix 能够在对延迟和成本影响最小的情况下，显著提高 RAG 系统的引用准确率（报告称相对提升高达 15.46%）。这种提升甚至可能允许使用更小、更经济高效的 LLM 作为生成器，同时保持相当的性能 135。
通用事实验证/一致性检查：更广泛地，可以将生成答案中的每个陈述（或分解后的命题）与检索到的上下文进行事实一致性检查 7。这通常可以利用自然语言推理（NLI）模型或另一个 LLM 来完成。例如，Ragas 框架就包含了基于 LLM 的忠实度评估，它将答案分解为陈述句，并检查每个陈述句是否能从上下文中推断出来 88。Deepchecks 的 "Grounded in Context" 框架也采用类似方法，为每个陈述句检索专用上下文，并使用 NLI 模型评估一致性 149。

表 3: RAG 忠实度控制与幻觉缓解技术总结

技术

应用阶段

核心机制

主要目标

主要优点

主要局限/权衡

相关文献

CK-PLUG

推理时

基于置信度增益检测冲突，通过参数 α 调整冲突词元概率分布

控制参数知识 vs. 上下文知识依赖

即插即用，细粒度/自适应控制，提升通用 RAG 性能

需要计算概率分布和熵

CaLE

推理时

V-usable 信息分析识别关键层，增强该层表示以促进上下文信息流

提升上下文忠实度

无需修改模型，针对性增强上下文处理

效果依赖于内部表示分析的准确性

134

RPO

对齐/训练

基于检索相关性的强化学习，优化对多源知识的偏好

提升对多源知识的鲁棒性

解决标准偏好优化在 RAG 中的局限性，自适应利用知识

需要 RL 训练设置和冲突数据模拟

CiteFix

后处理

将答案分解为事实点，使用多种方法（关键词、语义、BERTScore、LLM）交叉检查事实点与文档的相关性，修正引用

提高引用准确性

对生成模型无侵入，低延迟/成本影响，可能允许使用更小生成器

准确性依赖于交叉检查方法的有效性

135

反事实数据微调

微调

在上下文与内部知识冲突的数据上训练模型优先遵循上下文

提升上下文忠实度

直接针对冲突进行训练

可能损害模型内部知识的准确性

通用后处理事实检查

后处理

使用 NLI 模型或 LLM 验证生成答案中的陈述是否与检索到的上下文一致

验证答案的事实一致性

通用性强，可作为最后防线

依赖 NLI/LLM 评估器的准确性，可能增加延迟

确保 RAG 系统输出的忠实度是一个多层面的问题。核心挑战在于处理 LLM 内部知识与外部检索信息之间的潜在冲突。仅仅依赖检索到的信息是不够的，因为检索本身可能不完美，而完全信任 LLM 的内部知识又可能导致信息过时或偏离特定上下文。因此，发展出能够动态权衡这两种知识源的机制至关重要。CK-PLUG、CaLE 和 RPO 等方法代表了在推理或对齐阶段实现这种控制的尝试，它们通过分析模型置信度、内部状态或使用强化学习来引导模型做出更明智的知识选择。另一方面，认识到生成过程本身可能仍会引入错误，特别是细微的引用错误，后处理修正技术如 CiteFix 提供了一种有效的补充策略。这种解耦的方法，即先生成再修正，允许在不牺牲核心生成模型效率的情况下提高最终输出的可靠性，这对于需要高精度引用的应用场景（如法律、医疗）尤其有价值。一个全面的 RAG 系统可能需要结合多种策略：通过微调（如 RAFT 及其变体）从根本上提高模型处理 RAG 任务的能力，通过推理时控制机制（如 CK-PLUG）动态应对知识冲突，并通过后处理（如 CiteFix）捕捉并修正残留的错误。

6. 利用 Agentic 和 Modular RAG 优化生成质量

传统的 RAG 流程通常是线性的：检索 -> 生成 150。然而，对于复杂查询或当初始检索/生成不理想时，这种线性流程可能不足。Agentic RAG 和 Modular RAG 架构通过引入智能体（Agents）和模块化组件，实现了更动态、迭代和自适应的流程，特别是在生成阶段，可以通过反思（Reflection）、评估（Evaluation）和迭代优化来显著提升最终答案的质量和准确性 7。

6.1. 反思与评估模块在迭代优化中的作用

Agentic RAG 的核心特征之一是其能够进行自我反思和评估，这使得系统能够判断其中间或最终生成结果的质量，并据此进行调整。

Agentic RAG 范式：Agentic RAG 将 RAG 流程视为由一个或多个自主智能体（Agent）执行的任务 7。这些智能体利用 LLM 的决策能力，结合规划（Planning）、工具使用（Tool Use）、记忆（Memory）和反思（Reflection）等模式，动态地管理检索和生成过程 147。
反思（Reflection）模式：这是 Agentic RAG 的关键模式之一 7。智能体（或专门的评估模块）被设计用来批判性地分析自身的输出（例如，生成的答案、检索策略或中间推理步骤），识别其中的错误、不一致、信息缺失或不足之处 140。
评估模块（Evaluation Module）：通常由 LLM 驱动，扮演“批评家”或“裁判”的角色 140。它们根据预定义的标准（如相关性、忠实度、完整性、一致性）对生成的答案或检索到的上下文进行评分或判断 141。例如，评估器可以检查答案是否完全基于提供的上下文（Groundedness/Faithfulness）以及是否充分回答了问题（Relevance/Completeness）141。
迭代改进循环（Iterative Refinement Loop）：反思和评估的结果会触发一个改进循环 6。如果评估结果不满足质量要求，智能体可以决定采取纠正措施，例如：
- 重新检索：如果发现信息不足或不相关，智能体会重新制定查询或使用不同的检索工具/数据源进行再次检索 6。
- 重新生成：基于评估反馈或新检索到的信息，智能体可以指示生成模块重新生成或修改答案 140。这个“生成-评估-反思-（可能重新检索）-再生成”的循环会持续进行，直到生成的答案达到预设的质量标准或达到最大迭代次数 141。

6.2. 生成过程中的自校正与验证机制

Agentic RAG 框架内的反思和评估模块共同构成了强大的自校正（Self-Correction）和验证（Validation）机制，旨在提高生成答案的可靠性。

自校正：当评估模块识别出生成答案中的缺陷（如事实错误、逻辑不一致、信息缺失）时，系统可以自主启动校正流程 6。这可能涉及：
- 查询重写与再检索：智能体根据对初始答案缺陷的反思，生成更精确或不同的查询，以获取更相关或补充性的信息 6。
- 过滤不可靠信息：在生成前或生成过程中，智能体可以根据评估结果过滤掉被认为是低质量、不相关或矛盾的检索上下文 7。
- 答案修正：基于反馈或新信息，直接修改或重新生成答案部分内容 140。
Corrective RAG (CRAG)：CRAG 是一种特定的 RAG 架构，它在生成答案之前，会对检索到的文档进行评估 154。如果文档被判断为不相关或不足以支持答案，CRAG 会触发一个校正步骤，例如进行网络搜索以获取补充信息，或者直接基于内部知识生成（如果认为检索不可靠）155。
Self-RAG：Self-RAG 在生成过程中引入了特殊的“反思词元” 154。模型在生成时会预测这些词元，以判断是否需要进行检索、检索到的信息是否有用、以及生成的内容是否受上下文支持。这使得模型能够在生成过程中进行实时的自我评估和调整，例如决定是否需要检索更多信息，或者判断生成的内容是否可能产生幻觉 155。
基于知识图谱的验证：在某些 Graph RAG 或 Agentic RAG 实现中，生成的陈述可以通过对照结构化的知识图谱进行验证，以提高事实准确性 147。

Agentic RAG 和 Modular RAG 通过引入智能体和专门的功能模块（如反思、评估），将原本可能静态、单向的 RAG 流程转变为动态、迭代和自我完善的过程。这种转变的核心在于赋予系统在生成过程中进行自我评估和调整的能力。通过反思生成内容的质量和相关性，并根据评估结果触发相应的校正动作（如重新检索、过滤信息、重写查询或重新生成），这些先进的 RAG 架构能够更有效地处理复杂查询，提高答案的准确性、忠实度和鲁棒性。这标志着 RAG 技术从简单的信息检索与拼接，向更智能、更接近人类研究和问题解决过程的范式演进。然而，这种迭代和反思过程也可能带来额外的计算开销和延迟，因此如何在提升质量与保持效率之间找到平衡点，是设计和部署这些系统时需要考虑的关键问题 141。

7. 基准比较与实践分析

为了评估和比较各种 RAG 生成优化技术的实际效果，研究界开发了多种基准测试（Benchmarks）和评估指标（Metrics），并进行了大量的比较研究。这些评估旨在衡量 RAG 系统在准确性、忠实度、相关性、鲁棒性等方面的表现。

7.1. RAG 生成优化技术的基准测试

评估 RAG 系统，特别是其生成阶段，需要专门设计的基准和指标，以捕捉检索和生成组件之间的复杂互动以及最终输出的质量。

评估维度：全面的 RAG 评估应涵盖多个维度 8：
- 生成质量：答案的流畅性、连贯性、语法正确性。
- 准确性（Accuracy）：答案在多大程度上是正确的（通常与基准答案比较）。
- 相关性（Relevance）：答案在多大程度上切合用户的问题。
- 忠实度/可信度（Faithfulness/Groundedness）：答案在多大程度上基于提供的上下文，没有捏造信息。
- 上下文利用率（Context Utilization/Recall）：检索到的相关信息在多大程度上被用于生成答案。
- 鲁棒性（Robustness）：系统在面对噪声、干扰信息、反事实上下文或无法回答的问题时的表现。
- 效率（Efficiency）：延迟、吞吐量、计算成本。
评估框架与工具：
- Ragas：一个流行的开源框架，专注于评估 RAG 管道的各个方面，提供如 faithfulness、answer_relevancy、context_precision、context_recall 等指标 88。它通常使用 LLM 作为裁判来计算这些指标。
- ARES：使用轻量级 LLM 裁判进行自动化评估，评估检索和生成组件 173。
- DeepEval：另一个评估框架，提供多种指标，包括基于 G-Eval（使用 LLM 进行评估）的指标。
- Vertex AI Evaluation Service：Google Cloud 提供的服务，支持使用模型裁判（Judge Models）进行评估，包括 Groundedness、Verbosity、Instruction Following、Question Answer Quality 等指标 170。
- 其他：还有 RAGCHECKER 181、RGB 181、RECALL 181 等。
专用 RAG 基准数据集：
- MIRAGE：专为 RAG 评估设计，包含 7560 个 QA 实例和 37800 个文档块的检索池，旨在高效评估检索和生成。它引入了新的 RAG 适应性指标，如噪声脆弱性（Noise Vulnerability）、上下文可接受性（Context Acceptability）、上下文不敏感性（Context Insensitivity）和上下文误解（Context Misinterpretation）176。
- UAEval4RAG：专注于评估 RAG 系统处理无法回答问题的能力。它定义了六类无法回答的问题（如信息不足、错误预设、无意义、模态限制、安全担忧、数据库外），并提供自动化流程生成这些问题。评估指标包括未回答率（Unanswered Ratio）和可接受率（Acceptable Ratio）175。
- FaithEval, AmbigDocs：分别用于评估模型在面对微妙事实扰动（错误信息）时的忠实度，以及在多文档设置下处理歧义的能力 192。
- ContextualBench：汇编了多个流行的 RAG 基准（如 HotpotQA, TriviaQA），提供一致的 RAG 设置以进行可复现的评估 92。
- LongBench, BABILong, InfiniteBench, RULER：常用于评估 RAG 系统在长上下文处理方面的性能，特别是上下文压缩和利用技术 19。
传统 NLP 指标：ROUGE 和 BLEU 等基于词重叠的指标有时也用于评估生成答案与参考答案的相似性，但它们无法很好地衡量事实准确性或语义忠实度 170。

7.2. 不同生成优化技术的关键发现

通过在上述基准上进行实验，研究人员对各种 RAG 生成优化技术的效果得出了以下关键发现：

RAG vs. 长上下文（LC）LLM：
- 性能：最新的研究表明，当计算资源充足时，拥有非常长上下文窗口（如 128k 或更长）的先进 LLM（如 GPT-4o, Gemini 1.5）在直接处理长文档进行问答时，其平均性能通常优于标准 RAG 方法 11。这表明 LLM 的长上下文理解能力取得了显著进展。
- 成本：然而，RAG 在成本效益方面仍具有明显优势。由于 RAG 只需将少量检索到的块输入 LLM，其推理成本（通常按输入词元计费）远低于将整个长文档输入 LC LLM 的成本 18。
- 失败模式：LC LLM 在处理极长上下文时可能表现出独特的失败模式，如拒绝回答（声称版权问题）、仅总结不回答、输出重复或随机内容等，这可能与长上下文指令微调不足有关 14。RAG 的失败则更多与检索质量相关（如未能检索到正确信息或引入过多噪声）195。
- 混合方法：由于 RAG 和 LC 各有优劣，一些研究提出混合策略，如 SELF-ROUTE，根据查询的复杂性或模型的自我反思结果，动态地将查询路由到 RAG 或 LC 路径，以在性能和成本之间取得平衡 194。
RAG vs. 微调（Fine-tuning）：
- 知识来源：RAG 主要依赖外部实时知识，而微调则将知识内化到模型参数中 1。
- 适用场景：RAG 更适合需要最新信息、访问私有数据或需要引用来源的场景；微调更适合需要模型掌握特定风格、语气、格式或隐含领域知识（而非具体事实）的场景 98。
- 成本与技能：RAG 通常初始设置成本较低（尤其使用现有 LLM 时），但可能需要持续的数据维护和推理时资源；微调前期成本高（数据准备、训练计算），需要更多 AI 专业知识，但推理时可能更简单 98。
- 幻觉与忠实度：RAG 通过外部知识 grounding，通常能更好地控制幻觉，提供可追溯的答案；微调模型仍可能基于其内化知识产生幻觉，尤其对于训练数据未覆盖的情况 98。
- 结合使用：结合 RAG 和微调（如 RAFT）被认为是越来越有前景的方向，旨在利用两者的优势 98。
不同优化技术的效果：
- 上下文压缩：AttentionRAG 在压缩率和性能上优于 LLMLingua 40。面向任务的压缩缓存对广泛知识任务有效 42。
- 长上下文处理：RetroLM 等 KV 级检索方法在长上下文基准上表现出色 22。
- 微调：RAFT 及其变体（PA-RAG, CoR, ALoFTRAG）在领域特定 RAG 任务上显著优于基线 RAG 或标准微调 38。ALoFTRAG 证明了无需标注数据即可进行有效微调 96。
- 忠实度控制：CK-PLUG, CaLE, RPO 等方法在控制知识依赖和提高忠实度方面显示出潜力。
- 后处理：CiteFix 能有效提高引用准确率，且成本低 135。
- Agentic RAG：通过迭代反思和评估，Agentic RAG 能够处理更复杂的查询并提高答案质量，但可能增加延迟 140。

表 4: RAG 生成优化基准发现摘要

技术/比较

基准/数据集

关键指标

发现摘要

相关文献

上下文压缩 (AttentionRAG vs. LLMLingua)

LongBench, BABILong

准确率 (EM), LLM 评分

AttentionRAG 压缩率高达 6.3x，性能优于 LLMLingua 约 10%

长上下文处理 (RetroLM vs. Baselines)

LongBench, InfiniteBench, RULER

任务特定指标 (如 QA 准确率)

RetroLM 显著优于现有长上下文处理方法，尤其在长文档 QA 等任务上

微调 (RAFT vs. Baselines)

PubMed, HotpotQA, Gorilla

准确率, CoT 质量

RAFT 显著提升域内 RAG 性能

微调 (PA-RAG vs. RAFT)

自建领域数据集

Token 级召回率, 准确率

PA-RAG 优于 RAFT，尤其在检索失败时，有效缓解偏差和过拟合

微调 (ALoFTRAG vs. Baselines)

20 个跨语言数据集

引用准确率, 答案准确率

ALoFTRAG 平均提升 8.3% 和 3.0%，无需标签或教师模型

忠实度控制 (CK-PLUG)

NQ, ConFiQA, MQuAKE 等

记忆召回率 (MR), RAG 任务性能

CK-PLUG 可大范围调节知识依赖度 (MR: 9.9%-71.9%)，自适应模式提升通用 RAG 性能

忠实度控制 (CaLE)

CounterFact, NQ, SQuAD, StrategyQA

准确率

CaLE 提升上下文忠实生成，尤其在未知/冲突上下文场景

134

忠实度控制 (RPO)

PopQA, NQ, TriviaQA, RGB

准确率

RPO 显著提升 RAG 性能，增强对多源知识冲突的鲁棒性

后处理 (CiteFix)

内部 RAG 系统

引用准确率

CiteFix 相对提升引用准确率 15.46%，允许使用更小生成器

135

RAG vs. 长上下文 (LC) LLM

NQ, HotpotQA, MuSiQue 等

准确率, 成本

LC LLM (如 GPT-4o) 平均性能通常优于 RAG (若资源充足)；RAG 成本显著更低；混合路由 (SELF-ROUTE) 可平衡性能与成本

RAG vs. 微调 (FT)

(概念比较)

知识来源, 适用场景, 成本, 幻觉风险

RAG 适用于最新/私有数据，FT 适用于风格/任务适应；RAG 训练成本低/推理成本高，FT 反之；RAG 可追溯性好/幻觉风险低（若检索准确）

7.3. 选择与实施技术的建议

基于上述分析，可以为实践者提供以下选择和实施 RAG 生成优化技术的建议：

评估是前提：在引入任何高级优化技术之前，必须建立一个强大的评估框架，使用涵盖准确性、忠实度、相关性等多维度的指标，对现有 RAG 系统的生成阶段进行基准测试，识别性能瓶颈 8。
从提示工程开始：通常，优化提示是成本最低且最快见效的方法。确保提示清晰地指导模型使用上下文、处理不确定性，并考虑使用 CoT 或 Faithful CoT 来引导复杂推理 82。
处理上下文长度和噪声：如果 RAG 系统处理的上下文很长或包含大量噪声：
- 优先考虑上下文压缩/选择技术。AttentionRAG 在性能上优于 LLMLingua，且无需训练 40。如果效率是关键，面向任务的压缩缓存值得探索 42。
- 优化上下文排序，将最相关的块放在开头或结尾 16。
- 如果需要处理极长或碎片化上下文，RetroLM 等 KV 级方法可能是更根本的解决方案，但实现更复杂 23。
提升领域适应性和鲁棒性：如果模型在特定领域表现不佳或对干扰信息敏感：
- 考虑进行 RAG 特定的微调。RAFT 是一个成熟的起点 38。如果担心 RAFT 的局限性，PA-RAG 提供了改进方案 90。如果缺乏标注数据，ALoFTRAG 提供了一个自动化本地微调的选择 125。
- 使用 PEFT 方法（如 LoRA）来降低微调成本 94。
解决忠实度和幻觉问题：如果生成结果不忠实于上下文或出现幻觉：
- 首先检查并优化提示，明确要求基于上下文生成并处理不确定性 83。
- 考虑使用推理时控制方法（如 CK-PLUG, CaLE, RPO）来动态管理知识冲突。
- 实施后处理验证，特别是使用 CiteFix 来修正引用错误 135。
处理复杂多步任务：如果查询需要复杂的多步推理或与外部工具交互：
- 探索 Agentic RAG 架构。利用其规划、反思和迭代改进能力来分解问题并逐步生成和验证答案 140。
考虑 RAG 与 LC/FT 的权衡：
- 如果应用场景对实时性要求极高且知识相对静态，或者需要深度掌握特定风格/模式，微调可能是更好的选择（或与 RAG 结合）99。
- 如果需要处理非常长的文档并且计算预算充足，最新的 LC LLM 可能直接提供更好的性能 194。
- 对于大多数需要访问最新或私有数据、强调可追溯性且成本敏感的企业应用，RAG（可能结合 PEFT 或 Agentic 模式）仍然是主流且有效的选择 98。

评估 RAG 生成阶段的性能是一个复杂的问题，因为它涉及到检索质量、LLM 能力、上下文处理和提示设计等多个相互作用的因素。现有的基准和指标（如 Ragas、MIRAGE、UAEval4RAG 等）为量化评估提供了工具，但它们各有侧重，可能无法完全捕捉所有细微差别。比较研究（如 RAG vs. LC, RAFT vs. PA-RAG）揭示了不同技术路线之间的性能权衡，强调了没有“银弹”式的解决方案。最佳策略的选择取决于具体的应用需求（如任务类型、数据特性、准确性要求）、可用资源（计算能力、标注数据、开发时间）以及对不同技术优缺点的理解。实践中，采用迭代优化的方法，从基础的提示工程和上下文处理入手，通过严格的评估识别瓶颈，然后有针对性地引入更高级的技术（如专门的微调、推理时控制或 Agentic 架构），可能是构建高性能 RAG 系统的有效路径。

8. 结论与未来方向

8.1. 关键生成优化策略总结

本报告深入探讨了在检索和重排序阶段已优化的前提下，提升 RAG 系统生成阶段准确度和质量的多种先进技术。核心策略可以归纳为以下几类：

上下文处理优化：通过上下文压缩（如 AttentionRAG）、选择性利用（如 RetroLM 的 KV 级检索）以及优化信息排序（缓解“迷失在中间”效应），旨在向 LLM 提供更精炼、更易于利用的上下文信息。
提示工程：精心设计提示，明确指示 LLM 基于上下文进行回答，利用思维链（CoT）及其变体（如 Faithful CoT）引导基于证据的推理，并强调生成内容的忠实性。
RAG 特定微调：通过 RAFT 及其变体（如 PA-RAG, CoR, ALoFTRAG）等方法，训练 LLM 适应 RAG 的“开卷”环境，学习区分相关与无关上下文，并忠实地依据相关上下文生成答案。PEFT 技术使得这种微调在计算上更可行。
忠实度控制与幻觉缓解：在推理时通过 CK-PLUG、CaLE、RPO 等方法动态控制 LLM 对内部知识与外部上下文的依赖，或通过 CiteFix 等后处理技术验证和修正生成内容及引用。
Agentic/Modular RAG 架构：利用智能体的反思、规划和工具使用能力，或模块化的评估组件，实现对生成答案的迭代评估、验证和精炼，提高复杂查询的处理能力和最终答案质量。

这些策略共同作用，旨在克服 LLM 在利用检索信息、保持事实一致性和进行复杂推理方面的挑战，从而全面提升 RAG 系统的性能。

8.2. 新兴趋势与未来研究方向

RAG 作为一个活跃的研究领域，其生成阶段的优化仍然存在许多机遇和挑战：

RAG 与长上下文（LC）模型的深度融合：随着 LLM 上下文窗口的持续扩展，如何最有效地结合 RAG 的精确检索能力和 LC 模型处理长篇信息的能力是一个关键问题 11。未来的研究可能探索更智能的混合策略，例如根据查询类型或内容动态选择 RAG 还是 LC，或者开发能够无缝融合检索片段和长篇原文的生成模型。
更先进的 Agentic RAG：Agentic RAG 的潜力远未完全发掘 147。未来的工作可以探索更复杂的规划算法、更强大的反思和自我校正机制、以及更高效的多智能体协作策略，以优化生成过程的每一步，特别是在需要深度推理和与外部世界交互的任务中 140。
鲁棒性与可信赖 RAG：提高 RAG 系统对噪声、错误信息、甚至对抗性攻击的鲁棒性仍然是一个重要的研究方向 198。开发能够量化不确定性、主动检测和处理知识冲突、并生成具有更高可解释性和可验证性的答案（例如，通过更精确的引用或解释）的技术将是关键。需要更完善的基准来评估 RAG 的可信赖性 175。
生成效率优化：尽管 RAG 通常比从头训练 LLM 更高效，但其推理延迟（尤其是在 Agentic RAG 的迭代循环中）和计算成本仍然是实际部署的障碍 198。研究 KV 缓存优化、模型压缩（如量化）、推理优化（如推测解码）等技术在 RAG 生成阶段的应用，对于提高效率至关重要。
多模态 RAG 生成：当前的 RAG 研究主要集中在文本领域。将 RAG 的原理扩展到处理和生成包含图像、音频、视频等多模态信息的场景是一个充满潜力的新兴方向 198。这需要开发能够理解和融合多模态上下文的生成模型。
个性化 RAG 生成：根据用户的个人背景、偏好或历史交互来定制 RAG 的生成内容，可以提供更相关、更有用的体验 200。这需要在生成阶段考虑个性化因素。
GraphRAG 的深化：利用知识图谱作为 RAG 的外部知识源（GraphRAG）具有巨大潜力，因为它能提供结构化的关系信息 160。未来的研究可以探索更有效的图谱检索与图谱感知生成技术，以及如何将图谱推理与 LLM 的生成过程更紧密地结合，例如 CausalRAG 探索的因果关系整合 163。

总之，优化 RAG 系统的生成阶段是一个涉及上下文理解、提示设计、模型训练、知识控制和系统架构等多个层面的复杂挑战。随着技术的不断进步，我们有望看到更智能、更可靠、更高效的 RAG 系统，能够在更广泛的应用场景中发挥关键作用。

引用的著作

Retrieval-Augmented Generation for Large Language Models: A Survey - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2312.10997v5
Retrieval Augmented Generation (RAG) for LLMs - Prompt Engineering Guide, 访问时间为四月 28, 2025， https://www.promptingguide.ai/research/rag
Retrieval Augmented Generation (RAG) - Prompt Engineering Guide, 访问时间为四月 28, 2025， https://www.promptingguide.ai/techniques/rag
What is RAG? - Retrieval-Augmented Generation AI Explained - AWS, 访问时间为四月 28, 2025， https://aws.amazon.com/what-is/retrieval-augmented-generation/
What is RAG? — Retrieval Augmented Generation explained - Bavest Blog, 访问时间为四月 28, 2025， https://www.bavest.co/en/post/what-is-rag-retrieval-augmented-generation-explained
An Introduction to Agentic RAG - Sajal Sharma, 访问时间为四月 28, 2025， https://sajalsharma.com/posts/introduction-to-agentic-rag
A Guide to Agentic RAG: What Makes RAG truly Agentic? - Astera Software, 访问时间为四月 28, 2025， https://www.astera.com/type/blog/what-is-agentic-rag/
Evaluating RAG performance: Metrics and benchmarks - Maxim AI, 访问时间为四月 28, 2025， https://www.getmaxim.ai/blog/rag-evaluation-metrics/
Optimize RAG Systems Like a Pro with Fine-Tuning - - Datategy, 访问时间为四月 28, 2025， https://www.datategy.net/2025/01/21/optimize-rag-systems-like-a-pro-with-fine-tuning/
Optimizing RAG systems with fine-tuning techniques | SuperAnnotate, 访问时间为四月 28, 2025， https://www.superannotate.com/blog/rag-fine-tuning
Long Context vs. RAG for LLMs: An Evaluation and Revisits - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2501.01880v1
Multiple Abstraction Level Retrieve Augment Generation - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2501.16952v1
[D] What is the future of retrieval augmented generation? : r/MachineLearning - Reddit, 访问时间为四月 28, 2025， https://www.reddit.com/r/MachineLearning/comments/1itl38x/d_what_is_the_future_of_retrieval_augmented/
Long Context RAG Performance of Large Language Models - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2411.03538v1
Lost in the Middle: How Language Models Use Long Contexts - MIT Press Direct, 访问时间为四月 28, 2025， https://direct.mit.edu/tacl/article/doi/10.1162/tacl_a_00638/119630/Lost-in-the-Middle-How-Language-Models-Use-Long
Long-Context LLMs Meet RAG: Overcoming Challenges for Long Inputs in RAG - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2410.05983v1
U-NIAH: Unified RAG and LLM Evaluation for Long Context Needle-In-A-Haystack - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2503.00353v1
Retrieval Augmented Generation or Long-Context LLMs? A Comprehensive Study and Hybrid Approach - ACL Anthology, 访问时间为四月 28, 2025， https://aclanthology.org/2024.emnlp-industry.66.pdf
AttentionRAG: Attention-Guided Context Pruning in Retrieval-Augmented Generation - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2503.10720v1
arxiv.org, 访问时间为四月 28, 2025， https://arxiv.org/pdf/2503.10720
Advanced RAG Techniques: From Pre-Retrieval to Generation - TechAhead, 访问时间为四月 28, 2025， https://www.techaheadcorp.com/blog/advanced-rag-techniques-from-pre-retrieval-to-generation/
[2502.11444] Does RAG Really Perform Bad For Long-Context Processing? - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/abs/2502.11444
Does RAG Really Perform Bad In Long-Context Processing? - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2502.11444v1
arxiv.org, 访问时间为四月 28, 2025， https://arxiv.org/pdf/2502.11444
[2502.11444] Does RAG Really Perform Bad In Long-Context Processing? - ar5iv - arXiv, 访问时间为四月 28, 2025， https://ar5iv.labs.arxiv.org/html/2502.11444
Parameters vs. Context: Fine-Grained Control of Knowledge Reliance in Language Models, 访问时间为四月 28, 2025， https://arxiv.org/html/2503.15888v1
[2503.15888] Parameters vs. Context: Fine-Grained Control of Knowledge Reliance in Language Models - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/abs/2503.15888
[Literature Review] Parameters vs. Context: Fine-Grained Control of Knowledge Reliance in Language Models - Moonlight, 访问时间为四月 28, 2025， https://www.themoonlight.io/review/parameters-vs-context-fine-grained-control-of-knowledge-reliance-in-language-models
Parameters vs. Context: Fine-Grained Control of Knowledge Reliance in Language Models | Request PDF - ResearchGate, 访问时间为四月 28, 2025， https://www.researchgate.net/publication/390038931_Parameters_vs_Context_Fine-Grained_Control_of_Knowledge_Reliance_in_Language_Models
Probing Language Models on Their Knowledge Source - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2410.05817v1
[2307.16139] User-Controlled Knowledge Fusion in Large Language Models: Balancing Creativity and Hallucination - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/abs/2307.16139
Revision History for Parameters vs. Context: Fine-Grained... - OpenReview, 访问时间为四月 28, 2025， https://openreview.net/revisions?id=fInyinptjR
Context-Parametric Inversion:Why Instruction Finetuning Can Worsen Context Reliance - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2410.10796v3
BALCONI: BALancing CONtext and Internal Knowledge For Training Flexible LLMs | OpenReview, 访问时间为四月 28, 2025， https://openreview.net/forum?id=hPk92D2GJV
Faithful Chain of Thought Reasoning Guide - PromptHub, 访问时间为四月 28, 2025， https://www.prompthub.us/blog/faithful-chain-of-thought-reasoning-guide
Faithful Chain-of-Thought Prompting: Enhancing Accuracy and ..., 访问时间为四月 28, 2025， https://learnprompting.org/docs/advanced/decomposition/faithful_cot
Chain of Thought Prompting Guide - PromptHub, 访问时间为四月 28, 2025， https://www.prompthub.us/blog/chain-of-thought-prompting-guide
RAFT: Adapting Language Model to Domain Specific RAG - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2403.10131v1
I Distilled 17 Research Papers into a Taxonomy of 100+ Prompt Engineering Techniques – Here's the List. : r/ChatGPTPro - Reddit, 访问时间为四月 28, 2025， https://www.reddit.com/r/ChatGPTPro/comments/1k4iykr/i_distilled_17_research_papers_into_a_taxonomy_of/
AttentionRAG: Attention-Guided Context Pruning in Retrieval-Augmented Generation - ResearchGate, 访问时间为四月 28, 2025， https://www.researchgate.net/publication/389894186_AttentionRAG_Attention-Guided_Context_Pruning_in_Retrieval-Augmented_Generation
[2503.10720] AttentionRAG: Attention-Guided Context Pruning in Retrieval-Augmented Generation - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/abs/2503.10720
arXiv:2503.04973v1 [cs.CL] 6 Mar 2025, 访问时间为四月 28, 2025， https://arxiv.org/pdf/2503.04973
Beyond RAG: Task-Aware KV Cache Compression for Comprehensive Knowledge Reasoning - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2503.04973v1
RAG 修炼手册｜RAG 敲响丧钟？大模型长上下文是否意味着向量检索 ..., 访问时间为四月 28, 2025， https://zilliz.com.cn/blog/will-long-contextllms-kill-rag-vectordatabase
Cache-Craft: Managing Chunk-Caches for Efficient Retrieval-Augmented Generation - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2502.15734v1
[2504.02921] HyperRAG: Enhancing Quality-Efficiency Tradeoffs in Retrieval-Augmented Generation with Reranker KV-Cache Reuse - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/abs/2504.02921
HyperRAG: Enhancing Quality-Efficiency Tradeoffs in Retrieval-Augmented Generation with Reranker KV-Cache Reuse - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2504.02921v1
When Not to Trust Language Models: Investigating Effectiveness of Parametric and Non-Parametric Memories | Request PDF - ResearchGate, 访问时间为四月 28, 2025， https://www.researchgate.net/publication/372916233_When_Not_to_Trust_Language_Models_Investigating_Effectiveness_of_Parametric_and_Non-Parametric_Memories
HyperRAG: Enhancing Quality-Efficiency Tradeoffs in Retrieval-Augmented Generation with Reranker KV-Cache Reuse | AI Research Paper Details - AIModels.fyi, 访问时间为四月 28, 2025， https://www.aimodels.fyi/papers/arxiv/hyperrag-enhancing-quality-efficiency-tradeoffs-retrieval-augmented
KVLink: Accelerating Large Language Models via Efficient KV Cache Reuse - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2502.16002v1
Papers by Yuwei An - AIModels.fyi, 访问时间为四月 28, 2025， https://www.aimodels.fyi/authors/arxiv/Yuwei%20An
‪Yihua Cheng‬ - ‪Google Scholar‬, 访问时间为四月 28, 2025， https://scholar.google.com/citations?user=E4AT_24AAAAJ&hl=en
Understanding and Optimizing Multi-Stage AI Inference Pipelines - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2504.09775v2
Understanding and Optimizing Multi-Stage AI Inference Pipelines - arXiv, 访问时间为四月 28, 2025， https://www.arxiv.org/pdf/2504.09775
Computation and Language - arXiv, 访问时间为四月 28, 2025， https://pdf.arxiv.org/list/cs.CL/new
Long Context RAG Performance of LLMs | Databricks Blog, 访问时间为四月 28, 2025， https://www.databricks.com/blog/long-context-rag-performance-llms
Is Relevance Propagated from Retriever to Generator in RAG? - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2502.15025v1
Optimize RAG Applications with Document Reranking Using Haystack With NVIDIA NeMo Retriever, 访问时间为四月 28, 2025， https://haystack.deepset.ai/blog/optimize-rag-with-nvidia-nemo
Introducing Contextual Retrieval - Anthropic, 访问时间为四月 28, 2025， https://www.anthropic.com/news/contextual-retrieval
(PDF) Enhancing Retrieval-Augmented Generation Accuracy with Dynamic Chunking and Optimized Vector Search - ResearchGate, 访问时间为四月 28, 2025， https://www.researchgate.net/publication/388050476_Enhancing_Retrieval-Augmented_Generation_Accuracy_with_Dynamic_Chunking_and_Optimized_Vector_Search
提高RAG 应用准确度，时下流行的Reranker 了解一下？ - Zilliz 向量 ..., 访问时间为四月 28, 2025， https://zilliz.com.cn/blog/rag-reranker-therole-and-tradeoffs
大语言模型的检索增强生成(RAG) 方法, 访问时间为四月 28, 2025， https://www.promptingguide.ai/zh/research/rag
the chronicles of rag: the retriever, the chunk - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/pdf/2401.07883
Retrieval-Augmented Generation for AI-Generated Content: A Survey - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2402.19473v6
Towards Long Context RAG — LlamaIndex - Build Knowledge Assistants over your Enterprise Data, 访问时间为四月 28, 2025， https://www.llamaindex.ai/blog/towards-long-context-rag
FactCheck: Knowledge Graph Fact Verification Through Retrieval-Augmented Generation Using a Multi-Model Ensemble Approach, 访问时间为四月 28, 2025， https://thesis.unipd.it/retrieve/39ee02f8-f852-4aed-a5b6-25f8fedd4370/main.pdf
advanced_rag_small_to_big.ipynb - Colab, 访问时间为四月 28, 2025， https://colab.research.google.com/github/sophiamyang/demos/blob/main/advanced_rag_small_to_big.ipynb
[D] Real talk about RAG : r/MachineLearning - Reddit, 访问时间为四月 28, 2025， https://www.reddit.com/r/MachineLearning/comments/1cekoc7/d_real_talk_about_rag/
Advanced Retrieval Strategies - LlamaIndex, 访问时间为四月 28, 2025， https://docs.llamaindex.ai/en/stable/optimizing/advanced_retrieval/advanced_retrieval/
[AINews] MM1: Apple's first Large Multimodal Model - Buttondown, 访问时间为四月 28, 2025， https://buttondown.com/ainews/archive/ainews-mm1-apples-first-large-multimodal-model/
LlamaIndex Talk (AI Conference), 访问时间为四月 28, 2025， https://aiconference.com/wp-content/uploads/2023/10/Jerry-Lui-LlamaIndex-Talk-AI-Conference-1.pdf
[AINews] World_sim.exe - Buttondown, 访问时间为四月 28, 2025， https://buttondown.com/ainews/archive/ainews-to-be-named-9615/
Retrieval Augmented Generation (RAG) and Beyond: A Comprehensive Survey on How to Make your LLMs use External Data More Wisely - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2409.14924v1
Hierarchical Indexing for Retrieval-Augmented Opinion Summarization - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2403.00435v1
HIRO: Hierarchical Information Retrieval Optimization - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2406.09979v1
Retrieval-Augmented Generation for Large Language Models: A Survey - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/pdf/2312.10997
Toward Optimal Search and Retrieval for RAG - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2411.07396v1
ArchRAG: Attributed Community-based Hierarchical Retrieval-Augmented Generation - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2502.09891v1
Hierarchical Indexing for Retrieval-Augmented Opinion Summarization - MIT Press Direct, 访问时间为四月 28, 2025， https://direct.mit.edu/tacl/article/doi/10.1162/tacl_a_00703/125483/Hierarchical-Indexing-for-Retrieval-Augmented
[2503.10150] Retrieval-Augmented Generation with Hierarchical Knowledge - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/abs/2503.10150
HIRO: Hierarchical Information Retrieval Optimization - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2406.09979v2
Prompt Engineering and Retrieval Augmented Generation (RAG) - RagaAI- Blog, 访问时间为四月 28, 2025， https://raga.ai/blogs/rag-prompt-engineering
Prompt engineering for RAG - OpenAI Developer Forum, 访问时间为四月 28, 2025， https://community.openai.com/t/prompt-engineering-for-rag/621495
NLP • Retrieval Augmented Generation - aman.ai, 访问时间为四月 28, 2025， https://aman.ai/primers/ai/RAG/
From Beginner to Expert: Modeling Medical Knowledge into General LLMs - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2312.01040v3
Azure-Samples/azure-openai-raft - GitHub, 访问时间为四月 28, 2025， https://github.com/Azure-Samples/azure-openai-raft
arxiv.org, 访问时间为四月 28, 2025， https://arxiv.org/pdf/2403.10131
arXiv:2309.15217v1 [cs.CL] 26 Sep 2023, 访问时间为四月 28, 2025， https://r.jordan.im/download/language-models/es2023.pdf
Develop a RAG Solution - Large Language Model End-to-End Evaluation Phase - Azure Architecture Center | Microsoft Learn, 访问时间为四月 28, 2025， https://learn.microsoft.com/en-us/azure/architecture/ai-ml/guide/rag/rag-llm-evaluation-phase
arxiv.org, 访问时间为四月 28, 2025， https://arxiv.org/pdf/2502.08356
Adapting Large Language Models for Multi-Domain Retrieval-Augmented-Generation, 访问时间为四月 28, 2025， https://arxiv.org/html/2504.02411v1
\ourmodel: Towards Contextually Faithful LLMs - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2409.09916v1
Federated Learning and RAG Integration: A Scalable Approach for Medical Large Language Models - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2412.13720v1
Properties of LLMs, weak points and improvement measures for the ..., 访问时间为四月 28, 2025， https://cc-bei.news/en/properties-of-llms-weak-points-and-improvement-measures-for-the-domain-adaptation-of-applications/
arXiv:2503.01131v1 [cs.CL] 3 Mar 2025, 访问时间为四月 28, 2025， https://arxiv.org/pdf/2503.01131
arxiv.org, 访问时间为四月 28, 2025， https://arxiv.org/pdf/2501.11929
ALoFTRAG: Automatic Local Fine Tuning for Retrieval Augmented Generation - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2501.11929v1
RAG vs. Fine-tuning | IBM, 访问时间为四月 28, 2025， https://www.ibm.com/think/topics/rag-vs-fine-tuning
RAG vs. Fine-Tuning: How to Choose | Oracle United Kingdom, 访问时间为四月 28, 2025， https://www.oracle.com/uk/artificial-intelligence/generative-ai/retrieval-augmented-generation-rag/rag-fine-tuning/
RAG vs Fine Tuning LLMs: The Right Approach for Generative AI - Aisera, 访问时间为四月 28, 2025， https://aisera.com/blog/llm-fine-tuning-vs-rag/
RAG vs. fine-tuning: Choosing the right method for your LLM | SuperAnnotate, 访问时间为四月 28, 2025， https://www.superannotate.com/blog/rag-vs-fine-tuning
Retrieval-Augmented Generation vs Fine-Tuning: What's Right for You? - K2view, 访问时间为四月 28, 2025， https://www.k2view.com/blog/retrieval-augmented-generation-vs-fine-tuning/
RAG vs. fine-tuning - Red Hat, 访问时间为四月 28, 2025， https://www.redhat.com/en/topics/ai/rag-vs-fine-tuning
RAG Vs Fine Tuning: How To Choose The Right Method - Monte Carlo Data, 访问时间为四月 28, 2025， https://www.montecarlodata.com/blog-rag-vs-fine-tuning/
When do we use LLM fine tuning vs. LLM RAG? : r/OpenAI - Reddit, 访问时间为四月 28, 2025， https://www.reddit.com/r/OpenAI/comments/1bjtz7y/when_do_we_use_llm_fine_tuning_vs_llm_rag/
RAG vs fine tuning, a financial comparison : r/LocalLLM - Reddit, 访问时间为四月 28, 2025， https://www.reddit.com/r/LocalLLM/comments/1ep4d6c/rag_vs_fine_tuning_a_financial_comparison/
Comparing Retrieval Augmented Generation and fine-tuning - AWS ..., 访问时间为四月 28, 2025， https://docs.aws.amazon.com/prescriptive-guidance/latest/retrieval-augmented-generation-options/rag-vs-fine-tuning.html
lumpenspace/raft: RAFT, or Retrieval-Augmented Fine-Tuning, is a method comprising of a fine-tuning and a RAG-based retrieval phase. It is particularly suited for the creation of agents that realistically emulate a specific human target. - GitHub, 访问时间为四月 28, 2025， https://github.com/lumpenspace/raft
Fine-tuned models are now in limited public beta for GitHub Copilot Enterprise, 访问时间为四月 28, 2025， https://github.blog/news-insights/product-news/fine-tuned-models-are-now-in-limited-public-beta-for-github-copilot-enterprise/
PEFT: Parameter-Efficient Fine-Tuning Methods for LLMs - Hugging Face, 访问时间为四月 28, 2025， https://huggingface.co/blog/samuellimabraz/peft-methods
Parameter-Efficient Fine-Tuning for Large Models: A Comprehensive Survey - OpenReview, 访问时间为四月 28, 2025， https://openreview.net/pdf?id=lIsCS8b6zj
[2402.09353] DoRA: Weight-Decomposed Low-Rank Adaptation - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/abs/2402.09353
Parameter-Efficient Continual Fine-Tuning: A Survey - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2504.13822v1
(PDF) Parameter-Efficient Fine-Tuning for Foundation Models - ResearchGate, 访问时间为四月 28, 2025， https://www.researchgate.net/publication/388353705_Parameter-Efficient_Fine-Tuning_for_Foundation_Models
arxiv.org, 访问时间为四月 28, 2025， https://arxiv.org/abs/2403.14608
访问时间为一月 1, 1970， https://arxiv.org/abs/2501.13787
Microsoft developed this technique which combines RAG and Fine-tuning for better domain adaptation : r/LocalLLaMA - Reddit, 访问时间为四月 28, 2025， https://www.reddit.com/r/LocalLLaMA/comments/1jlec7i/microsoft_developed_this_technique_which_combines/
Microsoft developed this technique which combines RAG and Fine-tuning for better domain adaptation : r/LLMDevs - Reddit, 访问时间为四月 28, 2025， https://www.reddit.com/r/LLMDevs/comments/1jlfett/microsoft_developed_this_technique_which_combines/
RAFT: Adapting Language Model to Domain Specific RAG - Gorilla, Berkeley, 访问时间为四月 28, 2025， https://gorilla.cs.berkeley.edu/blogs/9_raft.html
召回引擎版支持RAG方案 - 阿里云文档, 访问时间为四月 28, 2025， https://help.aliyun.com/zh/open-search/retrieval-engine-edition/recall-engine-version-supports-rag-scheme
Chain-of-Rank: Enhancing Large Language Models for Domain-Specific RAG in Edge Device - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2502.15134v1
arXiv:2501.05554v1 [cs.CL] 9 Jan 2025, 访问时间为四月 28, 2025， https://arxiv.org/pdf/2501.05554
Fine tune your own LLM for any GitHub repository – Introducing KoloLLM : r/LocalLLaMA, 访问时间为四月 28, 2025， https://www.reddit.com/r/LocalLLaMA/comments/1iwolln/fine_tune_your_own_llm_for_any_github_repository/
[NAACL 2025 Main Conference] PA-RAG: RAG Alignment via Multi-Perspective Preference Optimization - GitHub, 访问时间为四月 28, 2025， https://github.com/wujwyi/PA-RAG
[2501.11929] ALoFTRAG: Automatic Local Fine Tuning for Retrieval Augmented Generation, 访问时间为四月 28, 2025， https://arxiv.org/abs/2501.11929
Repo for ALoFTRAG: Automatic Local Fine Tuning for Retrieval Augmented Generation - GitHub, 访问时间为四月 28, 2025， https://github.com/lightblue-tech/aloftrag
The details of fine-tuning Octo using LIBERO · Issue #215 - GitHub, 访问时间为四月 28, 2025， https://github.com/openvla/openvla/issues/215
Issue #26 · om-ai-lab/VLM-R1 - LoRA fine-tuning - GitHub, 访问时间为四月 28, 2025， https://github.com/om-ai-lab/VLM-R1/issues/26
OptimalScale/LMFlow: An Extensible Toolkit for Finetuning and Inference of Large Foundation Models. Large Models for All. - GitHub, 访问时间为四月 28, 2025， https://github.com/OptimalScale/LMFlow
hiyouga/LLaMA-Factory: Unified Efficient Fine-Tuning of 100+ LLMs & VLMs (ACL 2024) - GitHub, 访问时间为四月 28, 2025， https://github.com/hiyouga/LLaMA-Factory
byronBBL/CK-PLUG: Official repository of paper "Parameters vs. Context: Fine-Grained Control of Knowledge Reliance in Language Models" - GitHub, 访问时间为四月 28, 2025， https://github.com/byronBBL/CK-PLUG
Domain Specialization as the Key to Make Large Language Models Disruptive: A Comprehensive Survey - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2305.18703v7
访问时间为一月 1, 1970， https://arxiv.org/pdf/2503.15888
arXiv:2504.15630v1 [cs.CL] 22 Apr 2025, 访问时间为四月 28, 2025， https://arxiv.org/pdf/2504.15630
CiteFix: Enhancing RAG Accuracy Through Post-Processing Citation Correction - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2504.15629v1
CiteFix: Enhancing RAG Accuracy Through Post-Processing Citation Correction - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/abs/2504.15629
arXiv:2504.15629v1 [cs.IR] 22 Apr 2025, 访问时间为四月 28, 2025， https://www.arxiv.org/pdf/2504.15629
(PDF) Retrieval Augmented Generation Evaluation in the Era of Large Language Models: A Comprehensive Survey - ResearchGate, 访问时间为四月 28, 2025， https://www.researchgate.net/publication/390991356_Retrieval_Augmented_Generation_Evaluation_in_the_Era_of_Large_Language_Models_A_Comprehensive_Survey/download
arxiv.org, 访问时间为四月 28, 2025， https://arxiv.org/pdf/2504.15629
Introducing Agentic RAG: The Best of Both Worlds - Iguazio, 访问时间为四月 28, 2025， https://www.iguazio.com/blog/introducing-agentic-rag-the-best-of-both-worlds/
Bonus Journey: Agentic RAG - Combining Agents with Retrieval-Augmented Generation, 访问时间为四月 28, 2025， https://techcommunity.microsoft.com/blog/azure-ai-services-blog/bonus-rag-time-journey-agentic-rag/4404652
ai-agents-for-beginners | 10 Lessons to Get Started Building AI Agents, 访问时间为四月 28, 2025， https://microsoft.github.io/ai-agents-for-beginners/05-agentic-rag/
Agentic RAG: A Complete Guide to Agent-Based Retrieval Augmented Generation, 访问时间为四月 28, 2025， https://ragaboutit.com/agentic-rag-a-complete-guide-to-agent-based-retrieval-augmented-generation/
AI Agents: Mastering Agentic RAG - Part 5 | Microsoft Community Hub, 访问时间为四月 28, 2025， https://techcommunity.microsoft.com/blog/educatordeveloperblog/ai-agents-mastering-agentic-rag---part-5/4396171
RAG, AI Agents, and Agentic RAG: An In-Depth Review and Comparative Analysis, 访问时间为四月 28, 2025， https://www.digitalocean.com/community/conceptual-articles/rag-ai-agents-agentic-rag-comparative-analysis
What is Agentic RAG? Simplest explanation - The Cloud Girl, 访问时间为四月 28, 2025， https://www.thecloudgirl.dev/blog/what-is-agentic-rag-simplest-explanation
asinghcsu/AgenticRAG-Survey: Agentic-RAG explores advanced Retrieval-Augmented Generation systems enhanced with AI LLM agents. - GitHub, 访问时间为四月 28, 2025， https://github.com/asinghcsu/AgenticRAG-Survey
[2501.09136] Agentic Retrieval-Augmented Generation: A Survey on Agentic RAG - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/abs/2501.09136
Grounded in Context: Retrieval-Based Method for Hallucination Detection - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2504.15771v1
What is Agentic RAG? Building Agents with Qdrant, 访问时间为四月 28, 2025， https://qdrant.tech/articles/agentic-rag/
Agentic Retrieval-Augmented Generation: A Survey on Agentic RAG - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2501.09136v1
Stop Building Vanilla RAG: Embrace Agentic RAG with DeepSearcher - Milvus Blog, 访问时间为四月 28, 2025， https://milvus.io/blog/stop-use-outdated-rag-deepsearcher-agentic-rag-approaches-changes-everything.md
Agentic RAG: Enhancing retrieval-augmented generation with AI agents - Wandb, 访问时间为四月 28, 2025， https://wandb.ai/byyoung3/Generative-AI/reports/Agentic-RAG-Enhancing-retrieval-augmented-generation-with-AI-agents--VmlldzoxMTcyNjQ5Ng
Overview："Agentic Retrieval-Augmented Generation: A Comprehensive Survey", 访问时间为四月 28, 2025， https://dev.to/foxgem/overviewagentic-retrieval-augmented-generation-a-comprehensive-survey-34i6
Top 7 Agentic RAG System to Build AI Agents - Analytics Vidhya, 访问时间为四月 28, 2025， https://www.analyticsvidhya.com/blog/2025/01/agentic-rag-system-architectures/
How Agentic RAG Improves AI Answer Accuracy and Relevancy - Moveworks, 访问时间为四月 28, 2025， https://www.moveworks.com/us/en/resources/blog/agentic-rag
Understanding Agentic RAG - Arize AI, 访问时间为四月 28, 2025， https://arize.com/blog/understanding-agentic-rag/
Agentic Retrieval-Augmented Generation: A Survey on Agentic RAG | Request PDF - ResearchGate, 访问时间为四月 28, 2025， https://www.researchgate.net/publication/388080924_Agentic_Retrieval-Augmented_Generation_A_Survey_on_Agentic_RAG
Agentic Large Language Models, a survey - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2503.23037v2
Agentic Retrieval-Augmented Generation: A Survey on Agentic RAG - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2501.09136v2
(PDF) Agentic RAG Redefining Retrieval-Augmented Generation for Adaptive Intelligence, 访问时间为四月 28, 2025， https://www.researchgate.net/publication/389719393_Agentic_RAG_Redefining_Retrieval-Augmented_Generation_for_Adaptive_Intelligence
Agentic Information Retrieval - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2410.09713v3
CausalRAG: Integrating Causal Graphs into Retrieval-Augmented Generation - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2503.19878v1
AN AGENTIC FRAMEWORK FOR GRAPH RETRIEVAL AUGMENTED GENERATION - OpenReview, 访问时间为四月 28, 2025， https://openreview.net/pdf?id=g2C947jjjQ
arXiv:2405.10467v4 [cs.AI] 6 Nov 2024, 访问时间为四月 28, 2025， https://arxiv.org/pdf/2405.10467
(PDF) The Agentic AI Mindset - A Practitioner's Guide to Architectures, Patterns, and Future Directions for Autonomy and Automation - ResearchGate, 访问时间为四月 28, 2025， https://www.researchgate.net/publication/390958865_The_Agentic_AI_Mindset_-_A_Practitioner's_Guide_to_Architectures_Patterns_and_Future_Directions_for_Autonomy_and_Automation
Abul Ehtesham - CatalyzeX, 访问时间为四月 28, 2025， https://www.catalyzex.com/author/Abul%20Ehtesham
CAPRAG: A Large Language Model Solution for Customer Service and Automatic Reporting using Vector and Graph Retrieval-Augmented Generation - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/pdf/2501.13993
From RAG to Multi-Agent Systems: A Survey of Modern Approaches in LLM Development, 访问时间为四月 28, 2025， https://www.preprints.org/manuscript/202502.0406/v1
RAG systems: Best practices to master evaluation for accurate and ..., 访问时间为四月 28, 2025， https://cloud.google.com/blog/products/ai-machine-learning/optimizing-rag-retrieval
CHUNKRAG: A NOVEL LLM-CHUNK FILTERING - OpenReview, 访问时间为四月 28, 2025， https://openreview.net/pdf?id=NsvaW3Y6Su
[2501.13958] A Survey of Graph Retrieval-Augmented Generation for Customized Large Language Models - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/abs/2501.13958
Evaluation of Retrieval-Augmented Generation: A Survey - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2405.07437v2
什麼是檢索增強生成(RAG)？ - Google Cloud, 访问时间为四月 28, 2025， https://cloud.google.com/use-cases/retrieval-augmented-generation?hl=zh-TW
Unanswerability Evaluation for Retrieval Augmented Generation - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2412.12300v3
[2504.14891] Retrieval Augmented Generation Evaluation in the Era of Large Language Models: A Comprehensive Survey - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/abs/2504.14891
(PDF) Retrieval Augmented Generation Evaluation in the Era of Large Language Models: A Comprehensive Survey - ResearchGate, 访问时间为四月 28, 2025， https://www.researchgate.net/publication/390991356_Retrieval_Augmented_Generation_Evaluation_in_the_Era_of_Large_Language_Models_A_Comprehensive_Survey
arxiv.org, 访问时间为四月 28, 2025， https://arxiv.org/abs/2504.17137
Benchmarking Retrieval-Augmented Generation for Medicine | Request PDF - ResearchGate, 访问时间为四月 28, 2025， https://www.researchgate.net/publication/384207131_Benchmarking_Retrieval-Augmented_Generation_for_Medicine
arXiv:2504.17137v1 [cs.CL] 23 Apr 2025, 访问时间为四月 28, 2025， https://arxiv.org/pdf/2504.17137
MIRAGE: A Metric-Intensive Benchmark for Retrieval-Augmented Generation Evaluation, 访问时间为四月 28, 2025， https://arxiv.org/html/2504.17137v1
Retrieval Augmented Generation Evaluation in the Era of Large Language Models: A Comprehensive Survey - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2504.14891v1
A System for Comprehensive Assessment of RAG Frameworks - arXiv, 访问时间为四月 28, 2025， https://www.arxiv.org/pdf/2504.07803
Retrieval Augmented Generation Evaluation in the Era of Large Language Models: A Comprehensive Survey | AI Research Paper Details - AIModels.fyi, 访问时间为四月 28, 2025， https://www.aimodels.fyi/papers/arxiv/retrieval-augmented-generation-evaluation-era-large-language
Evaluating RAG Part I: How to Evaluate Document Retrieval | deepset Blog, 访问时间为四月 28, 2025， https://www.deepset.ai/blog/rag-evaluation-retrieval
How to Improve Retrieval Systems in AI Products - Newfront, 访问时间为四月 28, 2025， https://www.newfront.com/blog/how-to-improve-retrieval-systems-in-ai-products
\dataset: Evaluating Long-Context & Long-Form Retrieval-Augmented Generation with Key Point Recall - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2410.23000v2
arxiv.org, 访问时间为四月 28, 2025， https://arxiv.org/pdf/2412.12300
[2412.12300] Unanswerability Evaluation for Retrieval Augmented Generation - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/abs/2412.12300
Unanswerability Evaluation for Retreival Augmented Generation | Request PDF - ResearchGate, 访问时间为四月 28, 2025， https://www.researchgate.net/publication/387140529_Unanswerability_Evaluation_for_Retreival_Augmented_Generation
Unanswerability Evaluation for Retrieval Augmented Generation - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2412.12300v1
Retrieval-Augmented Generation with Conflicting Evidence - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2504.13079
How to Measure RAG from Accuracy to Relevance? - - Datategy, 访问时间为四月 28, 2025， https://www.datategy.net/2024/09/27/how-to-measure-rag-from-accuracy-to-relevance/
arXiv:2407.16833v2 [cs.CL] 17 Oct 2024, 访问时间为四月 28, 2025， https://arxiv.org/pdf/2407.16833
Retrieval Augmented Generation or Long-Context LLMs? A Comprehensive Study and Hybrid Approach - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2407.16833v1
[2501.01880] Long Context vs. RAG for LLMs: An Evaluation and Revisits - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/abs/2501.01880
RAG vs Long Context Models [Discussion] : r/MachineLearning - Reddit, 访问时间为四月 28, 2025， https://www.reddit.com/r/MachineLearning/comments/1ax6j73/rag_vs_long_context_models_discussion/
专补大模型短板的RAG有哪些新进展？这篇综述讲明白了丨达观动态 ..., 访问时间为四月 28, 2025， https://www.datagrand.com/blog/%E4%B8%93%E8%A1%A5%E5%A4%A7%E6%A8%A1%E5%9E%8B%E7%9F%AD%E6%9D%BF%E7%9A%84rag%E6%9C%89%E5%93%AA%E4%BA%9B%E6%96%B0%E8%BF%9B%E5%B1%95%EF%BC%9F%E8%BF%99%E7%AF%87%E7%BB%BC%E8%BF%B0%E8%AE%B2%E6%98%8E.html
[2503.10677] A Survey on Knowledge-Oriented Retrieval-Augmented Generation - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/abs/2503.10677
A Survey on Knowledge-Oriented Retrieval-Augmented Generation - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2503.10677v2
arXiv:2503.19878v1 [cs.CL] 25 Mar 2025, 访问时间为四月 28, 2025， https://arxiv.org/pdf/2503.19878?
arxiv.org, 访问时间为四月 28, 2025， https://arxiv.org/abs/2503.19878

智能体开发者社区

中国智能体开发者社区，聚焦智能体与大模型开发，提供前沿资讯、实用工具链、开源项目及行业案例。通过技术沙龙、开发者大赛等活动，促进经验交流与协作，助力开发者快速构建创新智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

智能体开发者社区

OpenClaw 小白安装指南（Windows版）

（类似一个能自动执行任务的AI机器人），不是游戏。API Key只保存在你本地电脑的加密文件里，不会上传到任何地方。访问：https://github.com/miaoxworld/openclaw-manager/releases。: 一键安装脚本会自动安装Node.js 22+，如果失败，手动下载安装：https://nodejs.org/：在PowerShell中，鼠标右键就是粘贴，不需要按

智能体开发者社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla