摘要

        检索增强生成(Retrieval-Augmented Generation,RAG)系统通过整合外部知识源来增强大型语言模型(Large Language Models,LLMs)的能力,能够生成更准确、与上下文更相关且符合用户需求的响应。然而,现有 RAG 系统存在显著局限性,包括依赖扁平数据表示以及上下文感知能力不足,这可能导致生成的答案碎片化,无法捕捉复杂的相互依赖关系。

        为解决这些挑战,我们提出了 LightRAG 框架,该框架将图结构融入文本索引和检索过程。这一创新性框架采用双层检索系统,可从底层知识发现和高层知识发现两个维度增强全面信息检索能力。此外,将图结构与向量表示相结合,有助于高效检索相关实体及其关系,在保持上下文相关性的同时显著提升响应速度。

        增量更新算法进一步强化了这一能力,该算法确保新数据能及时整合到系统中,使系统在数据快速变化的环境中仍能保持高效性和响应性。大量实验验证表明,与现有方法相比,该框架在检索准确性和效率方面均实现了显著提升。

        目前,我们已将 LightRAG 开源,开源地址为:https://github.com/HKUDS/LightRAG

1.介绍

        检索增强生成(Retrieval-Augmented Generation,RAG)系统通过整合外部知识源来增强大型语言模型(Large Language Models,LLMs)的性能,相关研究参见 Sudhi 等人(2024)、Es 等人(2024)以及 Salemi 与 Zamani(2024)的成果。这种创新性的整合方式,能让大型语言模型生成更准确且与上下文相关的响应,大幅提升其在实际应用场景中的实用性。通过适配特定领域知识(Tu 等人,2024),RAG 系统可确保所提供的信息不仅具有针对性,还能贴合用户需求。此外,这类系统还能获取最新信息(Zhao 等人,2024),这在快速发展的领域中至关重要。

        分块(Chunking)在检索增强生成过程中发挥着关键作用(Lyu 等人,2024)。通过将大型外部文本语料库拆分为更小、更易于处理的片段,分块操作能显著提高信息检索的准确性。这种方法支持更具针对性的相似性搜索,可确保检索到的内容与用户查询直接相关。

        然而,现有 RAG 系统存在一些关键局限性,影响了其性能发挥。首先,许多方法依赖扁平数据表示,限制了系统基于实体间复杂关系理解和检索信息的能力。其次,这些系统往往缺乏必要的上下文感知能力,无法在各类实体及其相互关系间保持连贯性,导致生成的响应可能无法全面解答用户查询。例如,若用户提出 “电动汽车的兴起如何影响城市空气质量与公共交通基础设施?” 这一问题,现有 RAG 方法可能会分别检索到关于电动汽车、空气污染和公共交通挑战的文档,但难以将这些信息整合为连贯的响应。它们可能无法解释电动汽车的普及如何改善空气质量,以及这种空气质量的改善又会如何影响公共交通规划。最终,用户得到的答案可能较为零散,无法充分体现这些主题间复杂的相互依赖关系。

        为解决这些局限性,我们提出将图结构融入文本索引和相关信息检索过程。图结构在表示不同实体间的相互依赖关系方面效果尤为显著(Rampášek 等人,2022),有助于更细致地理解实体间的关联。将基于图的知识结构整合进来,能够推动多源信息的融合,进而生成连贯且上下文丰富的响应。尽管具备这些优势,但开发一套能高效处理不同查询量、兼具快速性与可扩展性的图增强 RAG 系统仍至关重要。在本研究中,我们通过解决以下三个关键挑战,构建了一套高效实用的 RAG 系统:

  1. 全面信息检索:确保能从所有文档中检索到涵盖相互依赖实体完整上下文的全面信息;
  2. 提升检索效率:优化基于图的知识结构的检索效率,以显著缩短响应时间;
  3. 快速适配新数据:实现对新数据更新的快速适配,确保系统在动态环境中始终保持实用性。

为应对上述挑战,我们提出了 LightRAG 模型。该模型将基于图的文本索引范式与双层检索框架无缝融合,通过这一创新性方法提升系统捕捉实体间复杂依赖关系的能力,进而生成更连贯、上下文信息更丰富的响应。

LightRAG 采用高效的双层检索策略:

  • 底层检索:聚焦于特定实体及其关系的精准信息;
  • 高层检索:覆盖更广泛的主题与议题。

通过结合细节检索与概念检索,LightRAG 能够有效适配各类查询需求,确保用户获得符合其具体需求的相关且全面的响应。此外,通过将图结构与向量表示相结合,我们的框架不仅能高效检索相关实体及关系,还能借助构建的知识图谱中相关的结构化信息,提升检索结果的完整性。

本研究的核心贡献

综上,本研究的核心贡献如下:

  • 理论层面:强调开发图增强型 RAG 系统对突破现有方法局限性的重要意义。通过将图结构融入文本索引,能够有效表示实体间的复杂依赖关系,助力深入理解实体关联,进而生成连贯且上下文丰富的响应。

  • 方法层面:为构建高效、自适应的 RAG 系统,提出 LightRAG 模型。该模型将双层检索范式与图增强文本索引相融合,可同时捕捉底层与高层信息,实现全面且经济高效的检索。LightRAG 无需重建完整索引,大幅降低计算成本并加快适配速度;其增量更新算法能确保新数据及时整合,保障系统在动态环境中持续有效。

  • 实验层面:通过大量实验对比 LightRAG 与现有 RAG 模型的性能,评估维度涵盖检索准确性、模型消融分析、响应效率及对新信息的适配能力。实验结果表明,相较于基准方法,LightRAG 在各维度均实现显著提升。

2. 检索增强生成(Retrieval-Augmented-Generation)

        检索增强生成(Retrieval-Augmented Generation,RAG)将用户查询与来自外部知识数据库的相关文档集合相结合,包含两个核心要素:检索组件(Retrieval Component)和生成组件(Generation Component)。

  1. 检索组件负责从外部知识数据库中获取相关文档或信息,它会根据输入的查询识别并提取最具相关性的数据。
  2. 在检索过程完成后,生成组件会利用检索到的信息生成连贯且符合上下文的响应,其借助语言模型的能力产出有意义的输出结果。从形式上看,这一被记为 M 的 RAG 框架可定义如下:

        在该框架中,G 和 R 分别代表生成模块(generation module)和检索模块(retrieval module),q 表示输入查询(input query),D 则指外部数据库(external database)。检索模块 R 包含两大核心功能:i)数据索引器(Data Indexer)φ(・):该功能会基于外部数据库 D 构建特定的数据结构 D̂;ii)数据检索器(Data Retriever)ψ(・):通过将查询与已索引数据进行比对,获取相关文档(也可称为 “相关文档”,relevant documents)。

生成模型 G (・) 会利用通过 ψ(・) 检索到的信息,结合初始查询 q,高效生成高质量且符合上下文的响应。

在本研究中,我们针对构建高效实用的检索增强生成(Retrieval-Augmented Generation,RAG)系统所需的几个关键要点展开研究,具体阐述如下:

  • 全面信息检索:索引函数 φ(・) 必须善于提取全局信息,因为这对于提升模型有效回答查询的能力至关重要。
  • 高效低成本检索:已索引的数据结构 D̂必须能够实现快速且经济高效的检索,以有效处理大量查询请求。
  • 快速适配数据变化:能够快速且高效地调整数据结构,以整合来自外部知识库的新信息 —— 这一能力对于确保系统在不断变化的信息环境中始终保持时效性和实用性至关重要。

3 LightRAG 架构

3.1 基于图的文本索引

图增强的实体与关系提取。本研究提出的 LightRAG 通过将文档分割为更小、更易于处理的片段,对检索系统进行增强。这种策略无需分析完整文档,就能快速识别并获取相关信息。接下来,我们借助大型语言模型(LLMs)识别并提取各类实体(如姓名、日期、地点、事件等)及其之间的关系。通过这一过程收集的信息将用于构建一个全面的知识图谱,该图谱可凸显整个文档集合中的关联信息与关键洞察。我们将该图生成模块形式化定义如下:

其中,D̂代表生成的知识图谱。为生成该数据,我们对原始文本文档 Di 执行三个主要处理步骤。这些步骤借助大型语言模型(LLM)进行文本分析与处理。关于本部分的提示词模板及具体设置细节,可参见附录 7.3.2。我们在基于图的文本索引范式中所使用的函数描述如下:

  • 实体与关系提取(Extracting Entities and Relationships):函数 R (・):该函数会提示大型语言模型(LLM)从文本数据中识别实体(节点)及其关系(边)。例如,从文本 “心脏病专家通过评估症状来识别潜在的心脏问题(Cardiologists assess symptoms to identify potential heart issues)” 中,它可提取出 “心脏病专家(Cardiologists)”“心脏疾病(Heart Disease)” 等实体,以及 “心脏病专家诊断心脏疾病(Cardiologists diagnose Heart Disease)” 这一关系。为提升效率,原始文本 D 会被分割为多个文本块 Di。
  • 用于键值对生成的 LLM 特征分析(LLM Profiling for Key-Value Pair Generation):函数 P (・):我们采用具备 LLM 能力的特征分析函数 P (・),为集合 V 中的每个实体节点和集合 E 中的每个关系边生成文本键值对(K, V)。每个索引键(index key)是一个单词或短语,用于实现高效检索;而对应的索引值(value)是一段文本摘要,汇总了来自外部数据的相关片段,以辅助文本生成。实体以自身名称作为唯一索引键,而关系则可能拥有多个索引键 —— 这些索引键由 LLM 生成,其中包含了来自关联实体的全局主题信息。
  • 去重以优化图操作(Deduplication to Optimize Graph Operations):去重函数 D (・):最后,我们部署了去重函数 D (・),该函数可识别原始文本各片段 Di 中的相同实体与关系,并对其进行合并。此过程通过减小知识图谱 D̂的规模,有效降低了图谱操作相关的开销,从而实现更高效的数据处理。

我们的 LightRAG 模型通过基于图的文本索引范式实现两大优势:

      全面的信息理解能力。构建的图结构支持从多跳子图中提取全局信息,大幅提升了 LightRAG 处理跨多个文档块复杂查询的能力。其二,更优的检索性能。基于该图结构生成的键值数据结构经过优化,可实现快速精准的检索。相较于现有方法中常用的、准确性较低的嵌入匹配方法(Gao 等人,2023)以及效率低下的块遍历技术(Edge 等人,2024),该结构提供了更优的替代方案。

        对增量知识库的快速适配能力。为在确保响应准确且相关的同时,高效适配不断变化的数据,我们的 LightRAG 模型可对知识库进行增量更新,无需对整个外部数据库进行完整的重新处理。对于新文档 D′,增量更新算法会采用与之前相同的基于图的索引步骤 φ 对其进行处理,生成新的图结构 Dˆ′ = (Vˆ′, Eˆ′)。随后,LightRAG 会将新图数据与原始图数据进行融合 —— 具体方式为取节点集合 Vˆ与 Vˆ′的并集,以及边集合 Eˆ与 Eˆ′的并集。

我们针对增量知识库快速适配的方法遵循两大核心目标:

  • 新数据的无缝集成:通过对新信息采用统一的处理方法,增量更新模块使 LightRAG 能够在不破坏现有图结构的前提下,整合新的外部数据库。这种方式既保留了已建立关联的完整性,确保历史数据可正常访问,又能在无冲突、无冗余的前提下丰富图结构。
  • 降低计算开销:该方法无需重建完整的索引图,从而减少了计算开销,并促进新数据的快速吸收。

因此,LightRAG 在维持系统准确性、提供最新信息的同时,还能节约资源,确保用户获取及时更新,进而提升检索增强生成(RAG)系统的整体效能。

3.2 双层检索范式

为从特定文档块及其复杂的相互依赖关系中检索相关信息,我们提出的 LightRAG 模型建议在细节层面和抽象层面均生成查询键。

  • 特定查询(Specific Queries):这类查询以细节为导向,通常会涉及图中的特定实体,需要精准检索与特定节点或边相关联的信息。例如,一个特定查询可能是 “《傲慢与偏见》(Pride and Prejudice)的作者是谁?”
  • 抽象查询(Abstract Queries):与之相反,抽象查询更偏向概念性,涵盖更广泛的主题、摘要或总体框架,且不直接与特定实体绑定。抽象查询的示例包括 “人工智能如何影响现代教育?”

为适配不同类型的查询,LightRAG 在双层检索范式中采用了两种截然不同的检索策略。这一设计确保特定查询与抽象查询均能得到有效处理,使系统能够生成符合用户需求的相关响应。

  • 底层检索(Low-Level Retrieval):该层面主要聚焦于检索特定实体及其相关属性或关系。此层面的查询以细节为导向,旨在提取图中特定节点或边的精准信息。
  • 高层检索(High-Level Retrieval):该层面针对更广泛的主题和总体框架。此层面的查询会聚合多个相关实体及关系的信息,提供关于更高层级概念和摘要的洞察,而非局限于特定细节。

融合图与向量实现高效检索。通过将图结构与向量表示相结合,模型能够更深入地理解实体间的相互关系。这种协同作用使检索算法能够有效利用局部和全局关键词,从而简化搜索过程并提高结果的相关性。

  • (i)查询关键词提取:对于给定查询 q,LightRAG 的检索算法首先提取局部查询关键词 k^(l) 和全局查询关键词 k^(g)。
  • (ii)关键词匹配:该算法使用高效的向量数据库,将局部查询关键词与候选实体进行匹配,将全局查询关键词与链接到全局键的关系进行匹配。
  • (iii)整合高阶关联性:为增强查询的高阶关联性,LightRAG 进一步收集检索到的图元素的局部子图内的相邻节点。这一过程涉及集合 {vi | vi ∈ V ∧ (vi ∈ Nv ∨ vi ∈ Ne)},其中 Nv 和 Ne 分别表示检索到的节点 v 和边 e 的一跳相邻节点。

这种双层检索范式不仅通过关键词匹配促进了相关实体和关系的高效检索,还通过整合构建的知识图谱中的相关结构信息,提高了结果的全面性。

3.3 检索增强的答案生成

检索信息的利用。LightRAG 利用检索到的信息 ψ(q; D̂),借助通用大型语言模型(LLM)基于收集的数据生成答案。这些数据包含由特征分析函数 P (・) 生成的相关实体与关系的串联值 V,具体包括实体和关系的名称、描述以及原始文本的摘录。

上下文整合与答案生成。通过将查询与这种多源文本相结合,大型语言模型能够生成符合用户需求的信息丰富的答案,确保与查询意图保持一致。这种方法通过将上下文和查询整合到大型语言模型中,简化了答案生成过程,详细示例可参见附录 7.2。

3.4 LightRAG 框架的复杂度分析

        在本节中,我们将对所提出的 LightRAG 框架的复杂度进行分析,该分析可分为两个主要部分。第一部分是基于图的索引阶段(graph-based Index phase)。在此阶段,我们使用大型语言模型(LLM)从每个文本块中提取实体和关系。因此,LLM 的调用次数为总令牌数除以块大小(total tokens /chunk size)。重要的是,此过程无额外开销,这使得我们的方法在处理新文本的更新时极具效率。

        过程的第二部分涉及基于图的检索阶段(graph-based retrieval phase)。对于每个查询,我们首先利用大型语言模型(LLM)生成相关关键词。与现有的检索增强生成(RAG)系统(Gao 等人,2023;2022;Chan 等人,2024)类似,我们的检索机制依赖于基于向量的搜索。然而,与传统 RAG 中检索文本块不同,我们专注于检索实体和关系。与 GraphRAG 中使用的基于社区的遍历方法相比,这种方法显著降低了检索开销。

4.评估

我们通过基准数据进行实证评估,以检验所提出的 LightRAG 框架的有效性,主要围绕以下研究问题展开:

  • (RQ1):在生成性能方面,LightRAG 与现有的 RAG 基准方法相比表现如何?
  • (RQ2):双层检索和基于图的索引如何提升 LightRAG 的生成质量?
  • (RQ3):通过不同场景下的案例示例,LightRAG 展现出哪些具体优势?
  • (RQ4):LightRAG 的成本如何?其对数据变化的适应性又如何?

4.1 实验设置

评估数据集。为全面分析 LightRAG,我们从 UltraDomain 基准(Qian 等人,2024)中选取了 4 个数据集。UltraDomain 数据来源于 428 本大学教材,涵盖 18 个不同领域,包括农业、社会科学和人文科学等。我们从中选择了农业(Agriculture)、计算机科学(CS)、法律(Legal)和混合(Mix)数据集。每个数据集包含 60 万至 500 万令牌,详细信息见表 4。以下是我们实验中使用的四个领域的具体介绍:

  • 农业领域:聚焦农业实践,涵盖养蜂、蜂箱管理、作物生产和病害防治等一系列主题。
  • 计算机科学领域:聚焦计算机科学,包含数据科学和软件工程的关键领域,尤其突出机器学习和大数据处理,涉及推荐系统、分类算法以及基于 Spark 的实时分析等内容。
  • 法律领域:聚焦企业法律实务,涉及企业重组、法律协议、合规管理及公司治理等内容,重点关注法律与金融领域。
  • 混合领域:包含丰富多样的文学、传记及哲学文本,涵盖广泛的学科领域,包括文化、历史和哲学研究等。

问题生成。为评估 RAG 系统在高级意义构建任务中的有效性,我们将每个数据集的所有文本内容整合为上下文,并采用 Edge 等人(2024)提出的生成方法。具体而言,我们指示大型语言模型(LLM)生成 5 个 RAG 用户,每个用户配 5 项任务。每个生成的用户都附有一段文本说明,详细描述其专业背景和促使他们提问的特质。每项用户任务也有相应描述,重点体现用户与 RAG 系统交互时的潜在意图之一。对于每个 “用户 - 任务” 组合,大型语言模型会生成 5 个需要理解整个语料库才能回答的问题。最终,每个数据集通过此过程生成 125 个问题。

基线方法。我们在所有数据集上将 LightRAG 与以下最先进的方法进行对比:

  • Naive RAG(Gao 等人,2023):该模型是现有 RAG 系统中的标准基线。它将原始文本分割为块,并通过文本嵌入将其存储在向量数据库中。处理查询时,Naive RAG 生成向量表示,基于表示的最高相似度直接检索文本块,确保高效且直接的匹配。
  • RQ-RAG(Chan 等人,2024):该方法利用大型语言模型将输入查询分解为多个子查询。这些子查询通过采用重写、分解和消歧等显式技术来提高搜索准确性。
  • HyDE(Gao 等人,2022):该方法利用大型语言模型根据输入查询生成一个假设文档。这个生成的文档随后被用于检索相关文本块,进而用于构建最终答案。
  • GraphRAG(Edge 等人,2024):这是一种图增强型 RAG 系统,它利用大型语言模型从文本中提取实体和关系,将其表示为节点和边。它为这些元素生成相应描述,将节点聚合为社区,并生成社区报告以捕捉全局信息。处理高级查询时,GraphRAG 通过遍历这些社区来检索更全面的信息。

实现与评估细节。在我们的实验中,我们使用纳米向量数据库(nano vector database)进行向量数据的管理和访问。对于 LightRAG 中所有基于大型语言模型(LLM)的操作,我们默认使用 GPT-4o-mini。为保证一致性,所有数据集的块大小均设置为 1200。此外,GraphRAG 和 LightRAG 的收集参数(gleaning parameter)均固定为 1。

        为许多 RAG 查询(尤其是涉及复杂高层语义的查询)定义地面真值(ground truth)存在显著挑战。为解决这一问题,我们在现有研究(Edge 等人,2024)的基础上,采用了基于大型语言模型的多维度比较方法。我们使用一个性能强劲的大型语言模型(具体为 GPT-4o-mini)对每个基线方法与我们的 LightRAG 进行排名。我们使用的评估提示词详见附录 7.3.4。总体而言,我们采用四个评估维度,包括:

i) 全面性(Comprehensiveness):答案对问题的所有方面和细节的覆盖程度;

ii) 多样性(Diversity):答案在提供与问题相关的不同视角和见解方面的丰富程度;

iii) 赋能性(Empowerment):答案帮助读者理解主题并做出明智判断的有效程度;

iv) 总体表现(Overall):该维度综合前三个标准的表现,以确定整体最优答案。

        大型语言模型在每个维度上直接比较两个答案,并为每个标准选出更优的响应。在确定三个维度的胜出答案后,大型语言模型综合结果以判定整体更优的答案。为确保评估的公平性,并减轻因答案在提示词中的呈现顺序可能产生的潜在偏差,我们交替呈现每个答案的位置。我们据此计算胜率,最终得出实验结果。

4.2 LightRAG 与现有 RAG 方法的对比(研究问题 1)

Table 1: Win rates (%) of baselines v.s. LightRAG across four datasets and four evaluation dimensions

我们在不同评估维度和数据集上,将 LightRAG 与各基准方法进行了对比,结果如表 1 所示。基于这些结果,我们得出以下结论:

图增强型 RAG 系统在大规模语料库中的优越性。当处理大规模令牌数据以及需要深入理解数据集上下文的复杂查询时,LightRAG、GraphRAG 等基于图的 RAG 系统,其性能始终优于 NaiveRAG、HyDE、RQRAG 等纯基于块的检索方法。且随着数据集规模扩大,这种性能差距会愈发显著。例如,在规模最大的法律(Legal)数据集上,差距明显拉大:基准方法的胜率仅约为 20%,而 LightRAG 则表现出显著优势。这一趋势充分体现了图增强型 RAG 系统的优势 —— 它能够捕捉大规模语料库中的复杂语义关联,助力更全面地理解知识,进而提升模型的泛化性能。

LightRAG 在提升响应多样性方面的优势。与各类基准方法相比,LightRAG 在 “多样性”(Diversity)指标上展现出显著优势,尤其是在规模较大的法律数据集上。它在该维度的持续领先,表明 LightRAG 能够生成更丰富多样的响应,在需要多样化内容的场景中表现尤为突出。我们认为,这一优势得益于 LightRAG 的双层检索范式:该范式支持从底层(低维度)和高层(高维度)两个层面进行全面信息检索,同时有效利用基于图的文本索引,确保在响应查询时能够持续捕捉完整上下文。

LightRAG 相对 GraphRAG 的优越性。尽管 LightRAG 与 GraphRAG 均采用基于图的检索机制,但 LightRAG 的性能始终优于 GraphRAG,在语言语境复杂的大规模数据集上表现尤为明显。在农业(Agriculture)、计算机科学(CS)、法律(Legal)这三个均包含数百万令牌的数据集上,LightRAG 展现出明确优势,显著超越 GraphRAG,充分体现了其在多样化环境中全面理解信息的能力。具体优势体现在以下两方面:

  • 提升响应多样性:LightRAG 将特定实体的底层检索与广泛主题的高层检索相结合,有效提升了响应的多样性。这种双层机制既能处理细节导向的查询,也能应对抽象查询,确保对信息的全面掌握。
  • 处理复杂查询的能力:该方法在需要多样化视角的场景中价值尤为突出。通过同时获取具体细节和整体主题,LightRAG 能够灵活应对涉及关联主题的复杂查询,生成符合上下文的相关答案。

4.3 消融实验(研究问题 2)

为评估 LightRAG 中双层检索范式的影响及基于图的文本索引的有效性,我们还开展了消融实验,实验结果如表 2 所示。

双层检索范式的有效性。我们首先分析了底层检索与高层检索范式的作用,通过在四个数据集上对比两个 “消融模型”(每个模型均移除一个模块)与完整 LightRAG 的性能,得出以下关键结论:

  • 仅底层检索(Low-level-only Retrieval):移除高层检索的 “-High 变体”(-High variant)在几乎所有数据集和评估指标上均出现显著性能下降。这一下降主要源于该变体仅聚焦特定信息,过度关注实体及其直接关联节点。尽管这种方式能更深入地挖掘直接相关实体的信息,但面对需要全面洞察的复杂查询时,却难以收集足够信息。
  • 仅高层检索(High-level-only Retrieval):移除底层检索的 “-Low 变体”(-Low variant)优先通过实体间关系获取更广泛的内容,而非聚焦特定实体。该方式在 “全面性” 指标上具备显著优势,能够收集更丰富、更多样的信息。但与此同时,其对特定实体的挖掘深度会降低,进而限制了提供高度细节化洞察的能力。因此,这种仅高层检索的方式在需要精准、详细答案的任务中表现欠佳。
  • 混合模式(Hybrid Mode):混合模式即 LightRAG 的完整版本,它融合了底层检索与高层检索的优势 —— 在检索更广泛关系的同时,对特定实体进行深度挖掘。这种双层检索方式既保证了检索范围的广度,又确保了分析的深度,能够全面呈现数据信息。最终,LightRAG 在多个评估维度上实现了均衡的性能表现。

语义图在检索增强生成(RAG)中表现出色。我们在检索过程中移除了原始文本的使用。令人意外的是,由此产生的 “-Origin 变体”(即移除原始文本的版本)在所有四个数据集上均未出现显著的性能下降;在某些情况下(如农业数据集和混合数据集),该变体的性能甚至有所提升。我们认为,这一现象得益于基于图的索引过程中对关键信息的有效提取 —— 该过程为回答查询提供了充足的上下文。此外,原始文本中往往包含无关信息,这些信息可能会给响应引入噪声。

4.4 案例研究(研究问题 3)

        为清晰对比基准方法与我们提出的 LightRAG,我们在表 3 中提供了具体案例示例,其中包含性能较强的基准模型 GraphRAG 与 LightRAG 框架针对同一机器学习问题的响应结果。在该案例中,经大型语言模型(LLM)评判器评估,LightRAG 在所有评估维度(包括全面性、多样性、赋能性及整体质量)上均表现更优。我们的核心观察结果如下:

i)全面性:值得注意的是,LightRAG 涵盖了更广泛的机器学习指标,充分体现了其全面性及有效挖掘相关信息的能力。这一优势凸显了我们基于图的索引范式的价值 —— 该范式在精准提取实体与关系、以及通过大型语言模型进行特征分析方面表现出色。

ii)多样性与赋能性:此外,LightRAG 不仅能提供更多样化的信息,还能传递更具赋能价值的内容。这一成果得益于 LightRAG 的层级检索范式:通过底层检索对相关实体进行深度挖掘,以提升回答的赋能性;同时通过高层检索进行广度探索,以增强回答的多样性。这两种检索方式相结合,能够全面捕捉知识领域的全局视角,从而提升检索增强生成(RAG)系统的整体性能。

4.5 模型成本与适应性分析(研究问题 4)

        我们从两个关键角度将 LightRAG 的成本与性能最佳的基准模型 GraphRAG 进行了对比。

        第一,我们分析了索引和检索过程中的令牌数量与 API 调用次数;第二,我们结合动态环境下的数据变化处理情况,对这些指标进行了关联分析。在法律数据集上的评估结果如表 2 所示。在此背景下,Textract 代表实体与关系提取的令牌开销,Cmax 表示每次 API 调用允许的最大令牌数,Cextract 则表示提取过程所需的 API 调用次数。

        在检索阶段,GraphRAG 生成了 1399 个社区,本实验中实际用于检索的二级社区(level-2 communities)有 610 个。每个社区报告的平均令牌数为 1000,因此总令牌消耗量达到 610,000 令牌(610 个社区 × 每个社区 1000 令牌)。此外,GraphRAG 需逐个遍历每个社区,这导致其 API 调用次数高达数百次,大幅增加了检索开销。相比之下,LightRAG 对该过程进行了优化:关键词生成与检索环节仅使用不到 100 个令牌,且整个过程仅需 1 次 API 调用。这种高效性得益于我们的检索机制 —— 该机制将图结构与向量化表示无缝整合用于信息检索,从而无需预先处理大量信息。

        在增量数据更新阶段(该阶段旨在应对现实动态场景中的数据变化),两种模型在实体与关系提取环节的开销相近,但 GraphRAG 在处理新增数据时效率显著偏低。当引入一个与法律数据集规模相同的新数据集时,GraphRAG 必须拆解现有的社区结构以整合新的实体与关系,随后还需完全重新生成社区结构。这一过程中,每个社区报告的令牌成本约为 5000,考虑到共有 1399 个社区,GraphRAG 重建原始与新社区报告所需的令牌数约为 1399×2×5000,这一极高的开销凸显了其低效性。与之相反,LightRAG 可将新提取的实体与关系无缝整合到现有图结构中,无需完全重建。这种方式使得增量更新过程中的开销显著降低,充分体现了其更优的效率与成本效益。

5 相关工作

5.1 基于大型语言模型的检索增强生成

        检索增强生成(Retrieval-Augmented Generation, RAG)系统通过从外部来源检索相关信息,为大型语言模型(LLM)的输入内容提供补充,使生成的响应基于真实、特定领域的知识(Ram 等人,2023;Fan 等人,2024)。目前的 RAG 方法(Gao 等人,2022;2023;Chan 等人,2024;Yu 等人,2024)通常会将查询嵌入到向量空间中,以寻找最相近的上下文向量。然而,这类方法中许多都依赖碎片化的文本块,且仅检索前 k 个上下文,这限制了它们捕捉有效响应所需的全面全局信息的能力。

        尽管近年来有研究(Edge 等人,2024)探索了将图结构用于知识表示,但仍存在两个关键局限性。首先,这些方法往往缺乏对知识图谱进行动态更新和扩展的能力,难以有效整合新信息。相比之下,我们提出的 LightRAG 模型通过让 RAG 系统能够快速适配新信息,解决了这些挑战,确保模型的时效性和准确性。其次,现有方法通常需要对每个生成的社区进行暴力搜索(brute-force search),这在处理大规模查询时效率低下。我们的 LightRAG 框架通过所提出的双层检索范式,能够从图中快速检索相关信息,克服了这一局限性,显著提升了检索效率和响应速度。

5.2 用于图数据的大型语言模型

        图是表示复杂关系的强大框架,在众多领域都有应用。随着大型语言模型(LLM)的不断发展,研究人员越来越关注提升其解读图结构数据的能力。相关研究成果可主要分为三类:

  1. 图神经网络作为前缀(GNNs as Prefix):将图神经网络(Graph Neural Networks, GNNs)用作图数据的初始处理层,生成具有结构感知能力的令牌(tokens),供 LLM 在推理过程中使用。典型案例包括 GraphGPT(Tang 等人,2024)和 LLaGA(Chen 等人,2024)。
  2. 大型语言模型作为前缀(LLMs as Prefix):利用 LLM 处理包含文本信息的图数据,生成节点嵌入或标签,最终优化 GNN 的训练过程。例如 GALM(Xie 等人,2023)和 OFA(Liu 等人,2024)等系统均采用了该思路。
  3. 大型语言模型 - 图整合(LLMs-Graphs Integration):致力于实现 LLM 与图数据的无缝交互,采用融合训练、GNN 对齐等技术,并开发能够直接处理图信息的基于 LLM 的智能体(agent)(Li 等人,2023;Brannon 等人,2023)。

6. 结论

        本研究通过整合基于图的索引方法,为检索增强生成(Retrieval-Augmented Generation, RAG)技术带来了新进展 —— 该方法可同时提升信息检索的效率与理解能力。

        LightRAG 借助全面的知识图谱实现快速、精准的文档检索,能够更深入地理解复杂查询。其双层检索范式支持提取特定信息与抽象信息,可满足多样化的用户需求。此外,LightRAG 具备无缝的增量更新能力,能确保系统及时获取新信息并对其做出响应,从而长期维持高效能。

        总体而言,LightRAG 在效率与效能两方面均表现突出:在显著提升信息检索与生成的速度和质量的同时,还降低了大型语言模型(LLM)推理过程的成本。

参考文献

[1] [2410.05779] LightRAG: Simple and Fast Retrieval-Augmented Generation

[2] lightrag本地部署运行,并生成知识图谱(以中药图谱为例)_lightrag 本地部署-CSDN博客

[3] (4 封私信 / 20 条消息) 港大团队开源LightRAG:知识图谱+双层检索,复杂问答准确率飙升30% - 知乎

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐