我用LinearRAG重构RAG系统,查询速度提升10倍,成本降了80%!这套方法今天公开!
在大语言模型(LLMs)主导的 AI 时代,检索增强生成(RAG)技术因能有效缓解模型幻觉问题而被广泛应用。然而,面对大规模非结构化语料,传统 RAG 系统在信息碎片化处理上力不从心,而近年来兴起的基于图的 RAG(GraphRAG)虽试图通过知识图谱捕捉关系结构,却受限于不稳定且高昂的关系抽取过程,导致图谱噪声多、检索质量下降。

在大语言模型(LLMs)主导的 AI 时代,检索增强生成(RAG)技术因能有效缓解模型幻觉问题而被广泛应用。然而,面对大规模非结构化语料,传统 RAG 系统在信息碎片化处理上力不从心,而近年来兴起的基于图的 RAG(GraphRAG)虽试图通过知识图谱捕捉关系结构,却受限于不稳定且高昂的关系抽取过程,导致图谱噪声多、检索质量下降。
来自香港理工大学计算学系的研究团队提出了LinearRAG—— 一种基于线性图的检索增强生成框架,通过创新的无关系层级图构建与两阶段检索策略,在保证检索精度与生成准确性的同时,实现了线性可扩展性,为大规模语料的复杂推理任务提供了高效解决方案。以下是论文《LinearRAG: Linear Graph Retrieval Augmented Generation on Large-scale Corpora》的简要总结。
一、研究背景:传统 RAG 与 GraphRAG 的困境
1.1 传统 RAG 的局限
传统 RAG 通过将文档分割为小块(Chunking)进行索引,再结合检索到的上下文辅助 LLM 生成。但在大规模非结构化语料中,这种方式存在两大问题:
- 信息碎片化:文档分割会丢失关键上下文关联,尤其在多跳推理任务中,难以串联分散在不同块中的逻辑链条;
- 检索效率低:随着语料规模增长,检索范围呈指数级扩大,且难以精准定位与复杂查询匹配的推理相关文档。
1.2 GraphRAG 的瓶颈
为解决传统 RAG 的缺陷,GraphRAG 通过构建知识图谱(将实体与关系以三元组形式存储)来建模知识的层级结构,典型代表包括 RAPTOR、HippoRAG、LightRAG 等。但这类方法面临更核心的挑战:
- 局部不准确:关系抽取模型误差率高,易生成错误三元组(如将 “爱因斯坦未因相对论获诺贝尔奖” 误提取为 “爱因斯坦 - 因… 获诺贝尔奖 - 相对论”);
- 全局不一致:关系抽取仅在单文档局部进行,缺乏跨文档验证,导致图谱结构碎片化(如 “AI” 与 “无监督学习”“NLP” 的层级关系混乱);
- 成本高昂:关系抽取依赖 LLM,需消耗大量 Token,且图谱构建与检索耗时严重(如 LightRAG 索引需 4933 秒,检索单条查询需 11 秒)。
实验数据显示,GraphRAG 在多个真实任务中甚至不如朴素 RAG:在 GraphRAG-Bench 基准上,LightRAG、HippoRAG 的上下文相关性仅为 36.86%-54.61%,远低于朴素 RAG 的 62.87%。
二、LinearRAG 的核心设计:无关系图与两阶段检索
LinearRAG 的核心创新在于摒弃传统 GraphRAG 的关系抽取环节,通过轻量级实体提取与语义链接构建无关系层级图(Tri-Graph),并设计两阶段检索策略实现精准、高效的信息定位。
2.1 离线构建:Tri-Graph 无关系层级图
LinearRAG 构建的 Tri-Graph 包含三类节点(实体、句子、段落)与两类边(句子 - 实体、段落 - 实体),无需任何关系建模,具体步骤如下:
- 文本分割:将语料中的每个段落按标点分割为句子,得到段落集合P与句子集合S;
- 轻量级实体提取:使用 spaCy 等轻量模型进行命名实体识别(NER),得到实体集合ε(避免 LLM 调用,无 Token 消耗);
- 边构建:若段落pi包含实体ej,则添加 “段落 - 实体” 边;若句子si包含实体ej,则添加 “句子 - 实体” 边,最终用两个稀疏邻接矩阵存储(C:段落 - 实体,M:句子 - 实体)。
这种设计的优势在于:
- 线性可扩展:图谱构建复杂度与语料规模呈线性关系(仅依赖句子分割与 NER,无额外计算),索引时间较传统 GraphRAG 减少 77% 以上;
- 信息无损:保留原始段落作为知识载体,避免关系抽取导致的语义丢失;
- 存储高效:邻接矩阵采用稀疏格式存储,内存消耗仅为传统图谱的 1/10。
2.2 在线检索:两阶段精准定位
LinearRAG 的检索过程分为 “实体激活” 与 “段落检索” 两个阶段,既解决多跳推理的上下文关联问题,又保证全局重要性评估。
阶段 1:基于局部语义桥接的实体激活
目标是找到与查询相关的 “中间实体”(多跳推理的关键链条),避免传统实体匹配的漏检问题:
- 初始实体激活:从查询中提取实体(如 “Beatrice I, Countess Of Burgundy”),计算其与 Tri-Graph 中实体的相似度,生成初始激活向量aq;
- 查询 - 句子相关性计算:用 DPR 等模型计算查询与每个句子的语义相似度,得到向量σq;
- 语义传播:通过句子 - 实体 bipartite 图传播相似度,迭代更新实体激活分数(公式如下),捕捉隐含的多跳关联(如 “Beatrice I”→“Frederick Barbarossa”→“Germany”):aqt=MAX(MT(σq⊙(Maqt−1)),aqt−1)其中t为迭代次数(通常≤4),M为句子 - 实体邻接矩阵,⊙为元素积;
- 动态剪枝:设置阈值δ,仅保留激活分数超阈值的实体,避免语义漂移(如无关实体被反复激活)。
阶段 2:基于全局重要性聚合的段落检索
利用阶段 1 激活的实体,在段落 - 实体 bipartite 图上通过个性化 PageRank(PPR)计算段落重要性,具体步骤:
- 初始分数初始化:实体节点初始分数:直接使用阶段 1 的激活分数
- aq;
- 段落节点初始分数:结合 “查询 - 段落相似度” 与 “实体在段落中的出现频率 / 层级”,公式如下:I(v∣v∈Vp)=(λ⋅sim(q,v)+ln(1+∑ei∈EqLeiaq(i)⋅ln(1+Nei)))⋅Wp其中λ为权衡系数(实验中设为 0.05,实体信息占主导),Nei为实体ei在段落中的出现次数,Lei为实体层级;
- PPR 全局聚合:通过 PPR 迭代更新节点重要性,公式如下:I(vi)=(1−d)+d⋅∑vj∈B(vi)deg(vj)I(vj)其中d为阻尼系数(0.85),B(vi)为节点vi的前驱节点集合,deg(vj)为vj的出度;
- 段落排序:按段落重要性分数排序,选取 Top-K 段落作为检索结果输入 LLM 生成。
三、实验验证:性能与效率双突破
研究团队在 4 个基准数据集(HotpotQA、2WikiMultiHopQA、MuSiQue、Medical)上进行了全面实验,对比了零样本 LLM、朴素 RAG、10 种主流 GraphRAG 方法,验证了 LinearRAG 的优越性。
3.1 生成准确性:超越所有基线
LinearRAG 在所有数据集上的生成准确性(Contain-Acc. 与 GPT-Acc.)均排名第一:
- 2WikiMultiHopQA:Contain-Acc. 达 70.20%,GPT-Acc. 达 63.70%,较第二名 HippoRAG2(62.70%/55.00%)提升 7.5%-8.7%;
- HotpotQA:GPT-Acc. 达 66.50%,超过 GFM-RAG 的 65.60%;
- Medical 数据集:GPT-Acc. 达 63.72%,领先 HippoRAG2 的 60.77%;
- MuSiQue(复杂多跳):GPT-Acc. 达 37.00%,较 HippoRAG2 提升 2 个百分点。
关键原因在于:LinearRAG 通过语义传播捕捉了隐含推理链条(如 “Beatrice I→Frederick Barbarossa→Germany”),而传统 GraphRAG 因依赖预定义关系(如 “husband”),若语料中无明确关系描述则会失败(如 HippoRAG2 将上述问题答案误判为 “French”)。
3.2 效率:零 Token 消耗,速度提升 10 倍以上
在效率指标上,LinearRAG 实现了 “零 Token 消耗 + 超高速检索”:
- 索引时间:在 2Wiki 数据集上,LinearRAG 索引仅需 249.78 秒,较 LightRAG(4933 秒)快 20 倍,较 HippoRAG(936 秒)快 3.7 倍;
- 检索时间:单条查询平均检索时间 0.093 秒,接近 E²GraphRAG(0.053 秒),远快于 LightRAG(10.96 秒);
- Token 消耗:图谱构建与检索全程无需 LLM 调用,Token 消耗为 0,而 LightRAG 仅索引阶段就需消耗 3552 万 Prompt Token 与 5116 万 Completion Token;
- 大规模语料适配:在 5M Token 的 ATLAS-Wiki 语料上,LinearRAG 索引时间 1409 秒,较 RAPTOR(18033 秒)快 12.8 倍;10M Token 语料上快 15.1 倍。
3.3 检索质量:召回率与相关性双高
传统 GraphRAG 难以平衡 “召回率” 与 “相关性”(提升召回率易引入噪声),而 LinearRAG 在 Medical 数据集的四类任务中均实现双高:
- 复杂推理:召回率 87.03%,相关性 81.58%,远超 GFM-RAG(召回率 85.03%,相关性 33.06%);
- 创意生成:召回率 89.08%,相关性 72.74%,是朴素 RAG(相关性 58.73%)的 1.2 倍;
- 事实检索:相关性 86.09%,较 E²GraphRAG(69.74%)提升 16.35 个百分点。
四、消融实验:核心模块的必要性
为验证 LinearRAG 各模块的作用,研究团队进行了消融实验(基于 2Wiki、HotpotQA 等数据集):
- 去除 “实体激活”(w/o Entity Activation):直接使用查询提取的初始实体检索,不进行语义传播。结果显示,生成准确性平均下降 8%-12%(如 2Wiki 的 GPT-Acc. 从 63.70% 降至 55.20%),证明中间实体对多跳推理的关键作用;
- 去除 “全局重要性聚合”(w/o Global Importance Aggregation):仅用实体激活分数检索段落,不进行 PPR 全局评估。准确性平均下降 5%-7%(如 HotpotQA 的 Contain-Acc. 从 64.30% 降至 58.90%),说明全局聚合能过滤局部噪声,提升段落排序精度。
五、结论与展望
LinearRAG 通过 “无关系 Tri-Graph + 两阶段检索” 的创新设计,解决了传统 GraphRAG 的 “关系抽取噪声”“高成本”“低可扩展” 三大核心问题,在多跳推理、大规模语料场景下实现了 “性能 - 效率” 的双重突破。其核心贡献可总结为:
- 范式创新:提出无关系图构建范式,避免不稳定的关系建模,索引时间减少 77%;
- 检索优化:两阶段策略结合局部语义桥接与全局重要性聚合,兼顾多跳推理与噪声过滤;
- 实用价值:零 Token 消耗、线性可扩展,适用于企业级大规模语料部署(如医疗指南、法律文档)。
未来,LinearRAG 可进一步探索跨语言场景的实体链接优化,以及动态语料(如实时更新的新闻、论文)的增量图谱构建,进一步降低维护成本。
那么,如何系统的去学习大模型LLM?
作为一名深耕行业的资深大模型算法工程师,我经常会收到一些评论和私信,我是小白,学习大模型该从哪里入手呢?我自学没有方向怎么办?这个地方我不会啊。如果你也有类似的经历,一定要继续看下去!这些问题啊,也不是三言两语啊就能讲明白的。
所以我综合了大模型的所有知识点,给大家带来一套全网最全最细的大模型零基础教程。在做这套教程之前呢,我就曾放空大脑,以一个大模型小白的角度去重新解析它,采用基础知识和实战项目相结合的教学方式,历时3个月,终于完成了这样的课程,让你真正体会到什么是每一秒都在疯狂输出知识点。
由于篇幅有限,⚡️ 朋友们如果有需要全套 《2025全新制作的大模型全套资料》,扫码获取~
👉大模型学习指南+路线汇总👈
我们这套大模型资料呢,会从基础篇、进阶篇和项目实战篇等三大方面来讲解。

👉①.基础篇👈
基础篇里面包括了Python快速入门、AI开发环境搭建及提示词工程,带你学习大模型核心原理、prompt使用技巧、Transformer架构和预训练、SFT、RLHF等一些基础概念,用最易懂的方式带你入门大模型。
👉②.进阶篇👈
接下来是进阶篇,你将掌握RAG、Agent、Langchain、大模型微调和私有化部署,学习如何构建外挂知识库并和自己的企业相结合,学习如何使用langchain框架提高开发效率和代码质量、学习如何选择合适的基座模型并进行数据集的收集预处理以及具体的模型微调等等。
👉③.实战篇👈
实战篇会手把手带着大家练习企业级的落地项目(已脱敏),比如RAG医疗问答系统、Agent智能电商客服系统、数字人项目实战、教育行业智能助教等等,从而帮助大家更好的应对大模型时代的挑战。
👉④.福利篇👈
最后呢,会给大家一个小福利,课程视频中的所有素材,有搭建AI开发环境资料包,还有学习计划表,几十上百G素材、电子书和课件等等,只要你能想到的素材,我这里几乎都有。我已经全部上传到CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】
相信我,这套大模型系统教程将会是全网最齐全 最易懂的小白专用课!!
更多推荐
所有评论(0)