RAG论文阅读笔记

MMDocRAG 提供了一套覆盖“检索-证据筛选-图文交织生成”全过程的多模态 DocVQA 基准，为评估和推动多页、多模态文档理解与生成奠定了数据与指标基础；大量实验揭示当前模型仍难以稳定利用视觉证据并保持高质量引用，呼吁后续研究在检索精准度、跨模态融合、长文本稳健性等方向持续突破。

Rsbs

833人浏览 · 2025-11-08 12:42:22

Rsbs · 2025-11-08 12:42:22 发布

Bench Mark

MMDocRAG

一、研究动机

多页、多模态文档（文字、表格、图片、图表）问答（DocVQA）的难点：
• 文档极长，证据分散在不同页；
• 需跨模态推理并引用视觉信息；
现有 DocRAG 工作多为“文本检索＋文本生成”，常漏掉关键视觉证据；
评价体系缺失：
• 没有衡量模型在嘈杂检索结果中“挑选正确多模态证据”的能力；
• 没有衡量“图文交织输出”的质量。

二、核心贡献

提出首个聚焦“多模态检索增强生成”的benchmark MMDocRAG
• 222 份长文档（平均 67 页），10 个主题领域；
• 4 055 个专家标注问答对，均给出跨页、跨模态证据链；
• 每条样例提供 15 或 20 条候选 quote（文本＋图片），其中仅约 14%–18% 为金证据，其余为“高相似度干扰项”；
• 答案允许以“文字 + 引用”的形式交织呈现，实现可追溯的多模态回答。
完整的四阶段标注流程
① 文档解析与页面筛选：MinerU + LayoutLMv3 细粒度切分为 quote；
② 初始多模态答案生成：GPT-4o 生成草稿并剔除简单或无视觉内容 QA；
③ 引用校准：LLM 自动插入文本引用，人工复核；
④ 难例增强：基于相似度检索加入“硬负例”quote。
定义两类任务与评价指标
- 多模态检索：给定 query，召回文档 quote；指标 Recall@k；
- 多模态生成：在固定候选 quote 集合（15 或 20 条）上
  1. Quote 选择 F1（文本、图像分别算，再取平均）；
  2. 生成质量：BLEU/ROUGE 及 LLM-as-Judge（流畅度、引用正确性、图文连贯、推理逻辑、事实性，0–5 分）。
系统实验
1. 检索：评测 6 个文本、4 个视觉、4 组合式检索器（ColPali、ColQwen 等）；
2. 生成：评测 60 个最新 LLM/VLM（37 开源 + 23 商业）及 5 个在 dev 集微调的 Qwen2.5；
3. 纯文本输入 vs 图文混合输入全面对比。

三、关键实验结论

生成阶段
• GPT-4.1 取得最佳：Quote F1≈70%、答案质量均分 4.14/5；
• 商业模型整体优于开源，且对多模态输入更稳健；
• 开源/小模型在“图文混合输入”下常大幅掉点，原因是编码长度暴涨、视觉信息利用不足；
• 对 Qwen2.5 系列微调后，Quote F1 提升 5–10 点，答案质量提升 0.3–0.4 分。
VLM-text vs OCR-text
• 将图片转为“VLM 生成描述”比 OCR 文本可额外提升约 6–8 个 F1、0.1–0.2 的答案质量；
• 图像证据尤其受益（OCR 难捕获图形含义）。
检索阶段
• 视觉检索器在图像召回显著领先文本检索器；
• Hybrid（ColQwen+BGE 等）可同时提升文本与图像 recall，但 Recall@20 仍不足 85%→长文档检索仍具挑战。
Quote 位置偏好
• 模型更倾向选择序列首尾的 quote，中段易被忽略，符合“Lost-in-the-Middle”现象。

四、与已有基准的区别

现有 DocVQA/DocRAG（MP-DocVQA、M3DocVQA、M-Longdoc、MMDocIR 等）要么仅评文本答案、要么无多模态输出。

MMDocRAG 首次同时：

提供跨页、跨模态证据定位与选择评测；
支持“图文交织”答案并给出参考输出；
引入大规模高难度干扰项，刻画更真实的检索-选择场景。

五、局限与未来工作

数据主要为英文长 PDF，跨语言、OCR 低质场景待扩充；
当前评价仍依赖 GPT-Judge，存在偏差风险；
超长序列拼接、复杂版面解析对显存与解析算法要求极高；
期待社区在检索器、VLM 架构、长上下文建模及人机协同校验方面持续改进。

总结

Double Bench

这篇文档（arXiv:2508.03644v1）主要介绍了一个名为DOUBLE-BENCH的大规模、多语言、多模态评估基准，旨在解决现有文档检索增强生成（RAG）系统评估中的局限性，并通过实验揭示当前RAG技术的关键瓶颈。

1. 现有RAG评估的局限性

现有基准存在四大核心问题：

评估范围有限：仅关注RAG系统的单一组件（如嵌入模型或VQA模型），无法全面反映系统整体瓶颈。
先验知识假设不合理：许多VQA风格基准假设目标页面/文档已知，不符合真实场景中用户缺乏具体文档信息的情况。
证据模糊或不唯一：合成查询多基于单页，假设查询与证据一对一映射，忽略多页相关的情况。
多跳查询设计缺陷：多跳查询常由松散关联的单跳组成，无法评估跨文档/模态的多步推理能力。

2. DOUBLE-BENCH的构建

规模与多样性：包含3276份文档（共72880页）、5168个经人工验证的单跳/多跳查询，覆盖6种语言（英语、中文、西班牙语等）和4种文档类型（PDF、扫描文档、幻灯片、HTML页面）。
构建流程：
- 数据预处理：通过两阶段过滤和模态分解（文本、表格、图表分离）筛选高质量文档。
- 查询生成：单跳查询遵循“自包含、聚焦关键信息、无显式来源引用”原则；多跳查询基于知识图谱构建，确保逻辑连贯性。
- 证据标注：人工验证机器标注的证据页面，确保ground truth的准确性，支持动态更新以避免数据污染。

3. 关键实验发现

嵌入模型表现：
- 文本与视觉嵌入模型的差距缩小，多模态模型colqwen2.5-3b表现最佳（平均hit@5为0.795）。
- 高资源语言（如英语）的检索性能优于低资源语言（如阿拉伯语、法语）。
文档类型影响：结构化文档（PDF、HTML）比扫描文档更易处理。
RAG框架瓶颈：
- 多跳查询对现有框架挑战极大，即使提供ground truth页面，准确率仅0.655。
- 现有框架存在“过度自信”问题：即使缺乏证据，仍倾向于生成答案，牺牲可信度。
- 检索阶段是关键瓶颈，检索准确性与答案准确性高度相关，优化检索策略比复杂生成逻辑更重要。

4. 贡献与意义

提出首个支持多语言、多模态的动态RAG评估基准，填补现有评估的空白。
揭示当前RAG系统在多跳推理、低资源语言处理、可信度等方面的缺陷，为未来研究提供方向。
所有资源开源，计划每年更新数据集，推动RAG技术的稳健发展。

方法

M3DocRAG

研究背景与动机

传统 DocVQA 方法要么依赖单页视觉-语言模型，难以处理长篇幅、多文档问题；要么采用 OCR+文本 RAG，仅检索文字，忽略了表格、图像等关键信息，因而在真实业务场景中存在两大痛点：

需要跨页、跨文档推理
需要利用非文本证据

核心贡献

提出统一的多模态检索增强生成框架 M3DocRAG，可同时支持
1. 闭域（单文档）与开域（海量文档）环境；
2. 单跳与多跳推理；
3. 文本、表格、图像、图表等多种证据形态。
设计三阶段流水线
1. 文档嵌入：将所有 PDF 页面渲染为 RGB 图片，用 ColPali 等多模态检索模型提取视觉向量；
2. 页面检索：对用户文本查询计算 MaxSim，相似度最高的 K 页被召回；开域场景下结合 Faiss-IVF 等近似索引，将查询延迟由 20 s 降至 2 s；
3. 问答生成：把检索到的页面连同问题输入多模态语言模型（默认 Qwen2-VL 7B），生成最终答案。
构建首个开域多模态 DocVQA 基准 M3DOCVQA：包含 2 441 个多跳问题、3 368 份维基 PDF、共 4 万余页，覆盖文本-表格-图像混排场景，显著提升任务难度。
在三大基准上系统评测：
1. M3DOCVQA（开域），
2. MMLongBench-Doc（最长 120 页闭域），
3. MP-DocVQA（最长 20 页闭域）。

与纯文本 RAG（ColBERT v2 + Llama-3 8B）及直接使用多模态 LLM 的基线相比，M3DocRAG 在所有数据集均取得明显优势，并在 MP-DocVQA 刷新当时 SOTA（ANLS 0.844）。

关键实证发现

多模态 RAG 对图像/表格证据尤为有效：在 M3DOCVQA，证据为图像时 F1 提升近 3 倍；
增加检索页数可持续提高准确率，但需权衡 GPU 显存；
近似索引（IVF/IVFPQ）在保持准确率的同时将检索时延减少一个数量级；
在不同组合实验中，ColPali+Qwen2-VL 7B 为最佳配置，而检索模型 ColQwen 在特定闭域任务上略优；
质性分析显示模型能处理“答案只存在于图片”、“信息分散在多页”及“利用自身常识补全缺失检索”三类复杂场景。

与现有工作的关系

与只评估单页理解的 DocVQA、MP-DocVQA 等工作相比，该框架首次在开域多文档环境中同时保持视觉信息；
与仅文本的长文档基准 M-LongDoc 相似，M3DocRAG 通过引入视觉检索进一步扩展到多模态长文档理解。

局限与未来方向

检索模型与 LLM 主要在英文数据上训练，跨语言能力有限；
• 复杂版面、超长序列仍受 GPU 资源与窗口限制；
• 作者鼓励后续替换更强的检索器／LLM，并在工业流程中加入人工校验以减少幻觉输出。

总结而言，M3DocRAG 通过“多模态检索 + 多模态生成”的统一框架，显著提升了跨页、多文档、多模态 DocVQA 的准确率与效率，并配套发布了首个大规模开域基准，为后续多模态长文档理解研究奠定了技术与数据基础。

MAO-ARAG

一、研究背景

RAG（Retrieval-Augmented Generation）通过“检索＋生成”缓解 LLM 过时或缺知识的问题，但现实查询类型差异巨大。
现有 RAG 管线相对固定：
• 轻量单轮 RAG 低成本、低时延，但复杂问题性能差；
• 迭代／推理型 RAG 虽精确，却显著增加检索次数、Token 费用与延迟。
需求：针对不同问题动态选择最合适且性价比最高的 RAG 流程。

二、核心贡献

提出 MAO-ARAG——首个“多智能体调度”自适应 RAG 框架。
将 RAG 建模为多智能体半马尔可夫决策过程（MSMDP）：
1. 一个 Planner 负责“流程规划”；
2. 多个 Executor 作为“可调用模块”，包含：
  QDS（串行子问分解）、QDP（并行子问分解）、QR（查询改写）、RA（检索）、DS（文档选择）、AG（答案生成）、AS（答案汇总）。
使用 PPO 强化学习训练 Planner：
• 奖励 = F1（答案质量） − α·成本惩罚 − 格式惩罚
• 成本惩罚同时考虑 Token 花费、检索调用次数、回合数。
在 7 个开放域 QA 数据集上（NQ、PopQA、AmbigQA、HotpotQA、2Wiki、Musique、Bamboogle）系统评测，比较 8 类代表性 RAG 基线（单轮 / 迭代 / Agentic / 推理型）。
开源代码与模型（GitHub: chenyiqun/Agentic-RAG）。

三、方法细节

流程：对每个问题可多轮运行。每轮 Planner 接收当前子问及上下文→输出“执行器序列”→各执行器并/串行运行→更新上下文，直至满足终止条件。
强化学习：
• 状态：Planner 提示词 + 当前（子）问题
• 动作：从 {QDS,QDP,QR,DS,RA,AG,AS} 里选取并组合
• 奖励设计：
‑ R_f1：最终答案与黄金答案 F1
‑ R_CP：Token 成本、回合数、检索调用（均归一化 0–1）
‑ R_FP：非法流程格式惩罚
• 超参 α 控制性能 / 成本权衡。

四、实验结果

效果：MAO-ARAG 在 5/7 数据集拿到最高 F1，平均 52.91%，比最佳基线 Search-o1 高 3.08%。
成本：在达到相同甚至更高 F1 时，Token 花费、检索次数和回合数显著低于 Search-o1 与 Self-RAG，呈“性能-成本双优”曲线。
α 消融：α 越大，成本下降但 F1 也随之下降；α≈0.1–0.2 取得较佳性价比。
小模型可行性：将 7B Planner 蒸馏到 1.5B / 0.5B，经再训练后 F1 基本保持，表明 Planner 可轻量化。
不同执行器骨干：将 GPT-4o-Mini 替换为 GPT-4-nano 等便宜 API，效果略降但成本大幅降低，显示框架对后端模型具“可插拔”优势。

五、分析与讨论

• 自适应规划：面对简单事实问，Planner 常仅调用 AG；面对多跳比较问，则采用 QDP/QDS＋RA/AG＋AS 的多轮流程。
• 模块化优势：分离“计划”与“执行”，既方便 RL 训练，也易于替换更强或更省钱的底座模型。
• 限制：

Planner 需具备初始指令跟随能力，过小模型冷启动困难；
成本惩罚缩放较粗糙，未来可用真实货币或延迟加权；
目前仅评英文开放域 QA，垂直领域或多模态尚未探索。

六、结论

MAO-ARAG 证明：通过多智能体调度 + 强化学习，可针对具体查询动态组装最合适的 RAG 工作流，从而同时获得高答复质量与理想的成本/时延，为下一代“可调度、可插拔、成本可控”的 RAG 系统提供通用范式。

DeepSieve

这篇文档介绍了一种名为DeepSieve的新型检索增强生成（RAG）方法，旨在解决现有RAG系统在处理复杂查询和异构知识源时的局限性。以下是核心内容总结：

核心问题与动机

现有RAG方法存在两大关键缺陷：

查询侧：将用户查询视为原子单元，未分解其语义结构，难以处理多跳或组合式问答；
源侧：对异构知识源（如非结构化语料、结构化API、私有数据库等）采用统一检索索引，忽略其格式、领域差异，导致检索噪声、不匹配及计算成本过高。

DeepSieve的核心设计

DeepSieve通过多阶段信息筛选实现检索增强推理，核心组件包括四个阶段：

查询分解：将复杂查询分解为结构化子查询，形成有向无环图（DAG），明确推理依赖关系；
知识路由：基于LLM作为“知识路由器”，为每个子查询选择最适配的知识源（工具-语料对），路由决策参考子查询语义、源的领域/格式等元数据及历史失败记录；
观察与反思：若检索结果不足（如不完整、无关），触发反思循环，重新路由或调整子查询，直至解决或超时；
答案融合：基于子查询的DAG结构，聚合所有有效子答案，生成连贯的最终响应，支持冲突消解。

此外，DeepSieve具有模块化和可扩展性，可无缝集成多种工具（如SQL、API、RAG）和知识源，无需合并索引或统一 schema。

实验与性能表现

在三个多跳问答基准（MuSiQue、2WikiMultiHopQA、HotpotQA）上的实验表明：

性能优势：DeepSieve在F1/EM分数上显著优于传统RAG（如HippoRAG、RAPTOR）和代理方法（如ReAct、Reflexion）。例如，在DeepSeek-V3模型下，平均F1分数达58.9，超过最佳基线7.1分；
效率优势：使用的token数量远少于其他LLM系统（如在HotpotQA上仅需3.9K token，远低于Reflexion的37.9K），实现了精度与成本的平衡；
模块贡献：消融实验显示，分解和反思模块对性能至关重要（移除反思会导致2WikiMultiHopQA的F1从68.4降至15.4），路由模块在组合使用时提升鲁棒性，尤其适用于异构源场景。

核心贡献

提出“信息筛选”框架，首次使用LLM作为知识路由器，动态分解查询并适配异构知识源；
在单源和多源场景下均优于基线，提升检索精度和答案准确性；
模块化设计支持灵活集成多种工具和源，为未来RAG架构提供通用框架。

局限性与未来方向

局限性：路由粒度较粗（仅选择工具-语料对，未涉及工具参数），缺乏用户个性化适配；
未来工作：支持细粒度工具参数调整、引入缓存机制降低成本，以及个性化路由与记忆模块。

综上，DeepSieve通过结构化分解、动态路由和迭代反思，有效解决了异构知识源下的复杂推理问题，在性能和效率上均表现优异。

智能体开发者社区

中国智能体开发者社区，聚焦智能体与大模型开发，提供前沿资讯、实用工具链、开源项目及行业案例。通过技术沙龙、开发者大赛等活动，促进经验交流与协作，助力开发者快速构建创新智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

智能体开发者社区

OpenClaw 小白安装指南（Windows版）

（类似一个能自动执行任务的AI机器人），不是游戏。API Key只保存在你本地电脑的加密文件里，不会上传到任何地方。访问：https://github.com/miaoxworld/openclaw-manager/releases。: 一键安装脚本会自动安装Node.js 22+，如果失败，手动下载安装：https://nodejs.org/：在PowerShell中，鼠标右键就是粘贴，不需要按

智能体开发者社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla