Bench Mark

MMDocRAG

一、研究动机

  1. 多页、多模态文档(文字、表格、图片、图表)问答(DocVQA)的难点:
    • 文档极长,证据分散在不同页;
    • 需跨模态推理并引用视觉信息;
  2. 现有 DocRAG 工作多为“文本检索+文本生成”,常漏掉关键视觉证据;
  3. 评价体系缺失:
    • 没有衡量模型在嘈杂检索结果中“挑选正确多模态证据”的能力;
    • 没有衡量“图文交织输出”的质量。

二、核心贡献

  1. 提出首个聚焦“多模态检索增强生成”的benchmark MMDocRAG
    • 222 份长文档(平均 67 页),10 个主题领域;
    • 4 055 个专家标注问答对,均给出跨页、跨模态证据链;
    • 每条样例提供 15 或 20 条候选 quote(文本+图片),其中仅约 14%–18% 为金证据,其余为“高相似度干扰项”;
    • 答案允许以“文字 + 外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 引用”的形式交织呈现,实现可追溯的多模态回答。
  2. 完整的四阶段标注流程
    ① 文档解析与页面筛选:MinerU + LayoutLMv3 细粒度切分为 quote;
    ② 初始多模态答案生成:GPT-4o 生成草稿并剔除简单或无视觉内容 QA;
    ③ 引用校准:LLM 自动插入文本引用,人工复核;
    ④ 难例增强:基于相似度检索加入“硬负例”quote。
  3. 定义两类任务与评价指标
    • 多模态检索:给定 query,召回文档 quote;指标 Recall@k;
    • 多模态生成:在固定候选 quote 集合(15 或 20 条)上
      1. Quote 选择 F1(文本、图像分别算,再取平均);
      2. 生成质量:BLEU/ROUGE 及 LLM-as-Judge(流畅度、引用正确性、图文连贯、推理逻辑、事实性,0–5 分)。
  4. 系统实验
    1. 检索:评测 6 个文本、4 个视觉、4 组合式检索器(ColPali、ColQwen 等);
    2. 生成:评测 60 个最新 LLM/VLM(37 开源 + 23 商业)及 5 个在 dev 集微调的 Qwen2.5;
    3. 纯文本输入 vs 图文混合输入全面对比。

三、关键实验结论

  1. 生成阶段
    • GPT-4.1 取得最佳:Quote F1≈70%、答案质量均分 4.14/5;
    • 商业模型整体优于开源,且对多模态输入更稳健;
    • 开源/小模型在“图文混合输入”下常大幅掉点,原因是编码长度暴涨、视觉信息利用不足;
    • 对 Qwen2.5 系列微调后,Quote F1 提升 5–10 点,答案质量提升 0.3–0.4 分。
  2. VLM-text vs OCR-text
    • 将图片转为“VLM 生成描述”比 OCR 文本可额外提升约 6–8 个 F1、0.1–0.2 的答案质量;
    • 图像证据尤其受益(OCR 难捕获图形含义)。
  3. 检索阶段
    • 视觉检索器在图像召回显著领先文本检索器;
    • Hybrid(ColQwen+BGE 等)可同时提升文本与图像 recall,但 Recall@20 仍不足 85%→长文档检索仍具挑战。
  4. Quote 位置偏好
    • 模型更倾向选择序列首尾的 quote,中段易被忽略,符合“Lost-in-the-Middle”现象。

四、与已有基准的区别

现有 DocVQA/DocRAG(MP-DocVQA、M3DocVQA、M-Longdoc、MMDocIR 等)要么仅评文本答案、要么无多模态输出。

MMDocRAG 首次同时:

  1. 提供跨页、跨模态证据定位与选择评测;
  2. 支持“图文交织”答案并给出参考输出;
  3. 引入大规模高难度干扰项,刻画更真实的检索-选择场景。

五、局限与未来工作

  1. 数据主要为英文长 PDF,跨语言、OCR 低质场景待扩充;
  2. 当前评价仍依赖 GPT-Judge,存在偏差风险;
  3. 超长序列拼接、复杂版面解析对显存与解析算法要求极高;
  4. 期待社区在检索器、VLM 架构、长上下文建模及人机协同校验方面持续改进。

总结

MMDocRAG 提供了一套覆盖“检索-证据筛选-图文交织生成”全过程的多模态 DocVQA 基准,为评估和推动多页、多模态文档理解与生成奠定了数据与指标基础;大量实验揭示当前模型仍难以稳定利用视觉证据并保持高质量引用,呼吁后续研究在检索精准度、跨模态融合、长文本稳健性等方向持续突破。

Double Bench

这篇文档(arXiv:2508.03644v1)主要介绍了一个名为DOUBLE-BENCH的大规模、多语言、多模态评估基准,旨在解决现有文档检索增强生成(RAG)系统评估中的局限性,并通过实验揭示当前RAG技术的关键瓶颈。

1. 现有RAG评估的局限性

现有基准存在四大核心问题:

  • 评估范围有限:仅关注RAG系统的单一组件(如嵌入模型或VQA模型),无法全面反映系统整体瓶颈。
  • 先验知识假设不合理:许多VQA风格基准假设目标页面/文档已知,不符合真实场景中用户缺乏具体文档信息的情况。
  • 证据模糊或不唯一:合成查询多基于单页,假设查询与证据一对一映射,忽略多页相关的情况。
  • 多跳查询设计缺陷:多跳查询常由松散关联的单跳组成,无法评估跨文档/模态的多步推理能力。

2. DOUBLE-BENCH的构建

  • 规模与多样性:包含3276份文档(共72880页)、5168个经人工验证的单跳/多跳查询,覆盖6种语言(英语、中文、西班牙语等)和4种文档类型(PDF、扫描文档、幻灯片、HTML页面)。
  • 构建流程
    • 数据预处理:通过两阶段过滤和模态分解(文本、表格、图表分离)筛选高质量文档。
    • 查询生成:单跳查询遵循“自包含、聚焦关键信息、无显式来源引用”原则;多跳查询基于知识图谱构建,确保逻辑连贯性。
    • 证据标注:人工验证机器标注的证据页面,确保ground truth的准确性,支持动态更新以避免数据污染。

3. 关键实验发现

  • 嵌入模型表现
    • 文本与视觉嵌入模型的差距缩小,多模态模型colqwen2.5-3b表现最佳(平均hit@5为0.795)。
    • 高资源语言(如英语)的检索性能优于低资源语言(如阿拉伯语、法语)。
  • 文档类型影响:结构化文档(PDF、HTML)比扫描文档更易处理。
  • RAG框架瓶颈
    • 多跳查询对现有框架挑战极大,即使提供ground truth页面,准确率仅0.655。
    • 现有框架存在“过度自信”问题:即使缺乏证据,仍倾向于生成答案,牺牲可信度。
    • 检索阶段是关键瓶颈,检索准确性与答案准确性高度相关,优化检索策略比复杂生成逻辑更重要。

4. 贡献与意义

  • 提出首个支持多语言、多模态的动态RAG评估基准,填补现有评估的空白。
  • 揭示当前RAG系统在多跳推理、低资源语言处理、可信度等方面的缺陷,为未来研究提供方向。
  • 所有资源开源,计划每年更新数据集,推动RAG技术的稳健发展。

方法

M3DocRAG

研究背景与动机

传统 DocVQA 方法要么依赖单页视觉-语言模型,难以处理长篇幅、多文档问题;要么采用 OCR+文本 RAG,仅检索文字,忽略了表格、图像等关键信息,因而在真实业务场景中存在两大痛点:

  1. 需要跨页、跨文档推理
  2. 需要利用非文本证据

核心贡献

  1. 提出统一的多模态检索增强生成框架 M3DocRAG,可同时支持
    1. 闭域(单文档)与开域(海量文档)环境;
    2. 单跳与多跳推理;
    3. 文本、表格、图像、图表等多种证据形态。
  2. 设计三阶段流水线
    1. 文档嵌入:将所有 PDF 页面渲染为 RGB 图片,用 ColPali 等多模态检索模型提取视觉向量;
    2. 页面检索:对用户文本查询计算 MaxSim,相似度最高的 K 页被召回;开域场景下结合 Faiss-IVF 等近似索引,将查询延迟由 20 s 降至 2 s;
    3. 问答生成:把检索到的页面连同问题输入多模态语言模型(默认 Qwen2-VL 7B),生成最终答案。
  3. 构建首个开域多模态 DocVQA 基准 M3DOCVQA:包含 2 441 个多跳问题、3 368 份维基 PDF、共 4 万余页,覆盖文本-表格-图像混排场景,显著提升任务难度 。
  4. 在三大基准上系统评测:
    1. M3DOCVQA(开域),
    2. MMLongBench-Doc(最长 120 页闭域),
    3. MP-DocVQA(最长 20 页闭域)。

与纯文本 RAG(ColBERT v2 + Llama-3 8B)及直接使用多模态 LLM 的基线相比,M3DocRAG 在所有数据集均取得明显优势,并在 MP-DocVQA 刷新当时 SOTA(ANLS 0.844)。

关键实证发现

  1. 多模态 RAG 对图像/表格证据尤为有效:在 M3DOCVQA,证据为图像时 F1 提升近 3 倍;
  2. 增加检索页数可持续提高准确率,但需权衡 GPU 显存;
  3. 近似索引(IVF/IVFPQ)在保持准确率的同时将检索时延减少一个数量级;
  4. 在不同组合实验中,ColPali+Qwen2-VL 7B 为最佳配置,而检索模型 ColQwen 在特定闭域任务上略优;
  5. 质性分析显示模型能处理“答案只存在于图片”、“信息分散在多页”及“利用自身常识补全缺失检索”三类复杂场景。

与现有工作的关系

  1. 与只评估单页理解的 DocVQA、MP-DocVQA 等工作相比,该框架首次在开域多文档环境中同时保持视觉信息;
  2. 与仅文本的长文档基准 M-LongDoc 相似,M3DocRAG 通过引入视觉检索进一步扩展到多模态长文档理解。

局限与未来方向

检索模型与 LLM 主要在英文数据上训练,跨语言能力有限;
• 复杂版面、超长序列仍受 GPU 资源与窗口限制;
• 作者鼓励后续替换更强的检索器/LLM,并在工业流程中加入人工校验以减少幻觉输出 。

总结而言,M3DocRAG 通过“多模态检索 + 多模态生成”的统一框架,显著提升了跨页、多文档、多模态 DocVQA 的准确率与效率,并配套发布了首个大规模开域基准,为后续多模态长文档理解研究奠定了技术与数据基础。

MAO-ARAG

一、研究背景

  1. RAG(Retrieval-Augmented Generation)通过“检索+生成”缓解 LLM 过时或缺知识的问题,但现实查询类型差异巨大。
  2. 现有 RAG 管线相对固定:
    • 轻量单轮 RAG 低成本、低时延,但复杂问题性能差;
    • 迭代/推理型 RAG 虽精确,却显著增加检索次数、Token 费用与延迟。
  3. 需求:针对不同问题动态选择最合适且性价比最高的 RAG 流程。

二、核心贡献

  1. 提出 MAO-ARAG——首个“多智能体调度”自适应 RAG 框架。
  2. 将 RAG 建模为多智能体半马尔可夫决策过程(MSMDP):
    1. 一个 Planner 负责“流程规划”;
    2. 多个 Executor 作为“可调用模块”,包含:
      QDS(串行子问分解)、QDP(并行子问分解)、QR(查询改写)、RA(检索)、DS(文档选择)、AG(答案生成)、AS(答案汇总)。
  3. 使用 PPO 强化学习训练 Planner:
    • 奖励 = F1(答案质量) − α·成本惩罚 − 格式惩罚
    • 成本惩罚同时考虑 Token 花费、检索调用次数、回合数。
  4. 在 7 个开放域 QA 数据集上(NQ、PopQA、AmbigQA、HotpotQA、2Wiki、Musique、Bamboogle)系统评测,比较 8 类代表性 RAG 基线(单轮 / 迭代 / Agentic / 推理型)。
  5. 开源代码与模型(GitHub: chenyiqun/Agentic-RAG)。

三、方法细节

  1. 流程:对每个问题可多轮运行。每轮 Planner 接收当前子问及上下文→输出“执行器序列”→各执行器并/串行运行→更新上下文,直至满足终止条件。
  2. 强化学习:
    • 状态:Planner 提示词 + 当前(子)问题
    • 动作:从 {QDS,QDP,QR,DS,RA,AG,AS} 里选取并组合
    • 奖励设计:
    ‑ R_f1:最终答案与黄金答案 F1
    ‑ R_CP:Token 成本、回合数、检索调用(均归一化 0–1)
    ‑ R_FP:非法流程格式惩罚
    • 超参 α 控制性能 / 成本权衡。

四、实验结果

  1. 效果:MAO-ARAG 在 5/7 数据集拿到最高 F1,平均 52.91%,比最佳基线 Search-o1 高 3.08%。
  2. 成本:在达到相同甚至更高 F1 时,Token 花费、检索次数和回合数显著低于 Search-o1 与 Self-RAG,呈“性能-成本双优”曲线。
  3. α 消融:α 越大,成本下降但 F1 也随之下降;α≈0.1–0.2 取得较佳性价比。
  4. 小模型可行性:将 7B Planner 蒸馏到 1.5B / 0.5B,经再训练后 F1 基本保持,表明 Planner 可轻量化。
  5. 不同执行器骨干:将 GPT-4o-Mini 替换为 GPT-4-nano 等便宜 API,效果略降但成本大幅降低,显示框架对后端模型具“可插拔”优势。

五、分析与讨论

• 自适应规划:面对简单事实问,Planner 常仅调用 AG;面对多跳比较问,则采用 QDP/QDS+RA/AG+AS 的多轮流程。
• 模块化优势:分离“计划”与“执行”,既方便 RL 训练,也易于替换更强或更省钱的底座模型。
• 限制:

  1. Planner 需具备初始指令跟随能力,过小模型冷启动困难;
  2. 成本惩罚缩放较粗糙,未来可用真实货币或延迟加权;
  3. 目前仅评英文开放域 QA,垂直领域或多模态尚未探索。

六、结论

MAO-ARAG 证明:通过多智能体调度 + 强化学习,可针对具体查询动态组装最合适的 RAG 工作流,从而同时获得高答复质量与理想的成本/时延,为下一代“可调度、可插拔、成本可控”的 RAG 系统提供通用范式。

DeepSieve

这篇文档介绍了一种名为DeepSieve的新型检索增强生成(RAG)方法,旨在解决现有RAG系统在处理复杂查询和异构知识源时的局限性。以下是核心内容总结:

核心问题与动机

现有RAG方法存在两大关键缺陷:

  1. 查询侧:将用户查询视为原子单元,未分解其语义结构,难以处理多跳或组合式问答;
  2. 源侧:对异构知识源(如非结构化语料、结构化API、私有数据库等)采用统一检索索引,忽略其格式、领域差异,导致检索噪声、不匹配及计算成本过高。

DeepSieve的核心设计

DeepSieve通过多阶段信息筛选实现检索增强推理,核心组件包括四个阶段:

  1. 查询分解:将复杂查询分解为结构化子查询,形成有向无环图(DAG),明确推理依赖关系;
  2. 知识路由:基于LLM作为“知识路由器”,为每个子查询选择最适配的知识源(工具-语料对),路由决策参考子查询语义、源的领域/格式等元数据及历史失败记录;
  3. 观察与反思:若检索结果不足(如不完整、无关),触发反思循环,重新路由或调整子查询,直至解决或超时;
  4. 答案融合:基于子查询的DAG结构,聚合所有有效子答案,生成连贯的最终响应,支持冲突消解。

此外,DeepSieve具有模块化和可扩展性,可无缝集成多种工具(如SQL、API、RAG)和知识源,无需合并索引或统一 schema。

实验与性能表现

在三个多跳问答基准(MuSiQue、2WikiMultiHopQA、HotpotQA)上的实验表明:

  • 性能优势:DeepSieve在F1/EM分数上显著优于传统RAG(如HippoRAG、RAPTOR)和代理方法(如ReAct、Reflexion)。例如,在DeepSeek-V3模型下,平均F1分数达58.9,超过最佳基线7.1分;
  • 效率优势:使用的token数量远少于其他LLM系统(如在HotpotQA上仅需3.9K token,远低于Reflexion的37.9K),实现了精度与成本的平衡;
  • 模块贡献:消融实验显示,分解和反思模块对性能至关重要(移除反思会导致2WikiMultiHopQA的F1从68.4降至15.4),路由模块在组合使用时提升鲁棒性,尤其适用于异构源场景。

核心贡献

  1. 提出“信息筛选”框架,首次使用LLM作为知识路由器,动态分解查询并适配异构知识源;
  2. 在单源和多源场景下均优于基线,提升检索精度和答案准确性;
  3. 模块化设计支持灵活集成多种工具和源,为未来RAG架构提供通用框架。

局限性与未来方向

  • 局限性:路由粒度较粗(仅选择工具-语料对,未涉及工具参数),缺乏用户个性化适配;
  • 未来工作:支持细粒度工具参数调整、引入缓存机制降低成本,以及个性化路由与记忆模块。

综上,DeepSieve通过结构化分解、动态路由和迭代反思,有效解决了异构知识源下的复杂推理问题,在性能和效率上均表现优异。

Logo

中国智能体开发者社区,聚焦智能体与大模型开发,提供前沿资讯、实用工具链、开源项目及行业案例。通过技术沙龙、开发者大赛等活动,促进经验交流与协作,助力开发者快速构建创新智能应用。

更多推荐