MiniRAG:1.5B小模型也能用的RAG框架来了,与GPT4效果相差不大
随着对高效轻量级检索增强生成(RAG)系统的需求日益增长,现有 RAG 框架在部署小型语言模型(SLMs)时面临重大挑战。由于 SLMs 在语义理解和文本处理能力上的局限,当前方法性能大幅下降,阻碍了其在资源受限场景中的广泛应用。为此,我们推出了 MiniRAG,一种专为极简高效设计的新型 RAG 系统。MiniRAG 带来了两项关键技术突破:(1)语义感知的异构图索引机制,将文本块和命名实体统一
MiniRAG:1.5B小模型也能用的RAG框架来了,与GPT4效果相差不大
发布时间:2025 年 01 月 11 日
MiniRAG: Towards Extremely Simple Retrieval-Augmented Generation
摘要
随着对高效轻量级检索增强生成(RAG)系统的需求日益增长,现有 RAG 框架在部署小型语言模型(SLMs)时面临重大挑战。由于 SLMs 在语义理解和文本处理能力上的局限,当前方法性能大幅下降,阻碍了其在资源受限场景中的广泛应用。为此,我们推出了 MiniRAG,一种专为极简高效设计的新型 RAG 系统。MiniRAG 带来了两项关键技术突破:(1)语义感知的异构图索引机制,将文本块和命名实体统一整合,降低了对复杂语义理解的依赖;(2)轻量级拓扑增强检索方法,利用图结构实现高效知识发现,无需高级语言能力。实验表明,MiniRAG 在使用 SLMs 时性能媲美基于 LLM 的方法,且仅需 25%的存储空间。我们还提供了一个全面的基准数据集,用于评估复杂查询下的轻量级 RAG 系统。所有实现和数据集已在https://github.com/HKUDS/MiniRAG开源。
https://arxiv.org/abs/2501.06713
一、小型LLM在RAG场景的问题
检索增强生成(RAG)技术改变了大家访问大语言模型和利用外部知识的方式,展现了从问答到文档合成等多个场景下的强大能力。但在整个流程中——从索引构建、知识检索到最终响应生成——主要依赖于大型语言模型(LLMs)。这种对LLMs的依赖需要耗费巨大的计算开销和资源,成为了在资源受限的场景(如边缘设备、隐私敏感应用和实时处理系统)中部署中的障碍。
当前的RAG架构(例如LightRAG,GraphRAG)是利用LLMs的复杂能力,无法适应小型LLM(SLMs)在多个关键功能上的限制:
- 复杂的查询解释
- 多步推理
- 查询与文档之间的语义匹配
- 细致的信息合成
这种架构上的不匹配主要表现为两种方式:
- 性能严重下降,准确性降低
- 系统完全失效,某些高级RAG框架在从LLMs过渡到SLMs时完全无法运行
但SLMs也有其特性,使得有可能能在SLMs上有限运行RAG:
- 尽管SLMs在语义理解方面表现不佳,但在模式匹配和局部文本处理方面表现出色
- 显式结构信息可以通过提供检索导航线索来弥补有限的语义能力
- 将复杂的RAG操作分解为更简单、定义明确的步骤可以在不需要高级推理能力的情况下保持系统鲁棒性
为了解决以上问题,并且结合SLMs的特性,作者提出了MiniRAG。
二、MiniRAG 框架

上图展示了MiniRAG框架的架构,MiniRAG包括两大核心组件:
- 异构图索引:用于构建语义感知的知识表示
- 轻量级图知识检索:实现高效精准的信息检索
2.1 使用SLMs进行异构图索引
在资源受限的RAG系统中,SLMs 面临两大挑战:
- 难以从原始文本中提取和理解复杂的实体关系及上下文连接
- 难以有效总结大量文本并处理包含噪声和无关内容的检索信息。

如上图所示,SLM(Phi-3.5-mini)与LLM(gpt-4o-mini)相比,表现出明显的局限性。
虽然两者都能识别“HOUSE RULES”实体,但SLM的描述缺乏细节,未能捕捉到原始文本中的规则和目的。

在回答阶段,SLMs在广泛上下文中难以定位相关信息,常常被无关内容分散注意力。
为了突破这些局限性,MiniRAG 试图在以下两方面有所突破:
- 索引机制应提取数据中的关键关系和上下文连接。
- 索引方法应将检索内容浓缩为最相关的元素,减少干扰信息,提升小型模型的总结和去噪能力
作者提出了一种数据索引机制,生成语义感知的异构图。该图结合了文本块和命名实体,创建语义网络,便于精确的信息检索。在异构图中,节点包括两种类型:
- • 文本块节点:原始文本的连贯片段,保留上下文完整性。
- • 实体节点:从文本块中提取的关键语义元素,如事件、地点、时间参考等。
这种双节点设计使数据块直接参与检索,确保识别出最相关的上下文内容,缓解 SLMs 总结能力有限带来的信息失真。
节点之间的连接边分为两种:
- 实体-实体连接:捕捉语义关系、层次结构及时间或空间依赖关系。
- 实体-块连接:连接命名实体与其提取的上下文,保留语义连贯性。
例如,在为一篇关于2024年巴黎奥运会旅行计划的文档建立索引时,模型会在场地位置、活动日程、交通选项和附近景点之间建立实体-实体连接,同时创建实体-块连接,将这些实体与相关文本段链接起来。
通过语言模型生成的语义描述增强了知识图中的每条边。对于每条连接实体与其对应块的边,生成一个描述,作为该边的补充信息。该描述提供了实体的详细内容,并反映了实体与相关块之间的语义关系。
通过实体-块边的文本描述,成为一个文本属性边。
总之,MiniRAG框架中的索引过程生成了一个异构图,包含具有语义感知连接的实体和块节点。
2.2 轻量级基于图的知识检索
在设备上的RAG系统中,设备计算能力和数据隐私的限制使得无法使用强大的模型,如大型语言模型和高级文本嵌入模型,因此需要依赖较小的替代方案。
当前RAG 在计算嵌入相似性时,依赖LLMs来全面理解文本语义。
SLMs 往往难以捕捉长文本中的精确语义细微差别,使准确匹配变得复杂。
- i)减少生成输入内容的复杂性,确保语义信息清晰简洁;
- ii)缩短小型语言模型的输入内容长度,促进更好的理解和检索准确性。
此外,采用有效的图索引结构可以帮助缓解语义匹配中的性能缺陷,从而增强整体检索过程。
MiniRAG 提出了一种基于图的知识检索机制,有效利用了索引阶段构建的语义感知异构图 ,结合轻量级文本嵌入,实现了高效的知识检索。
通过基于图的搜索设计,减轻了与大型语言模型进行精确语义匹配的负担,以低计算成本获取丰富且准确的文本内容,从而增强了语言模型生成精确响应的能力。
2.2.1 查询语义映射
在检索阶段,用户输入查询的主要目标是从索引数据中识别与查询相关的元素(如文本块),以帮助模型生成准确响应。
识别的第一步需要解析查询并将其与索引数据对齐。
一些其他 RAG 方法利用 LLMs 扩展或分解查询为细粒度查询,从而增强查询与索引数据的匹配。但是,这一过程依赖 LLMs 从查询中提取高质量抽象信息,这对小型语言模型来说比较困难。
因此,在 MiniRAG 的检索过程中,利用实体提取——这对小型语言模型来说是一个简单且有效的任务——来促进查询的分解和索引数据(即语义感知的异构图)的匹配。
对于给定的查询,从两阶段实体处理流程开始。
- 首先,使用小型语言模型从查询中提取相关实体,并预测其潜在类型(如事件、地点、人物),这些类型可能直接贡献于查询答案。
- 接着,利用轻量级句子嵌入模型评估构建的图中所有实体节点的语义相似性,检查各种文本语料库(如实体名称、块内容)以实现有效的节点检索和定位。
在语义感知的异构图中,通过智能查询引导机制构建推理路径。对于任何输入查询,模型通过联合考虑两个关键方面来识别相关文本块:
(1)查询与实体节点的语义相关性
(2)实体-实体和实体-块关系的结构一致性。
系统化的相关推理路径发现过程包括以下步骤:
- 初始化实体识别:通过将查询实体与图节点匹配,定位高置信度的起点,为路径探索建立可靠入口。
- 答案感知的实体选择:利用预测的答案类型,从起始集中识别候选答案节点,实现类型引导的推理。
- 上下文丰富的路径形成:通过整合相关文本块,丰富推理路径,创建连接查询实体与潜在答案的全面证据链。
这个轻量级框架在保持高效率的同时确保了语义准确性,特别适合边缘计算场景。
2.2.2 拓扑增强的图检索
为了解决 SLMs 在知识检索中的局限性,提出了一种拓扑感知的检索方法,有效结合了异构知识图谱的语义和结构信息。
传统方法依赖语义理解有限的 SLMs,容易在检索过程中引入噪声。
MiniRAG 通过两阶段过程克服了这些挑战,协同利用嵌入相似性和图谱拓扑结构。
- 首先通过语义匹配识别种子实体
- 然后利用异构图结构进行拓扑增强的推理路径发现
通过整合实体相关性分数、结构重要性指标和路径连接模式,MiniRAG 在保持计算效率的同时,显著提升了知识检索的精度,为生成任务提供了更准确和可解释的推理路径。
- 关键关系识别:通过节点-边交互识别图内与查询相关的高质量实体-实体连接。
- 查询引导的路径发现:为了系统地发现知识图谱中的逻辑相关信息,识别并提取作为推理链的重要路径。
- 查询相关文本块的检索:基于索引结构,每个实体节点通过实体-块相互依赖关系与其源文本块连接。通过遍历这些连接,收集所有与推理路径 中实体节点连接的块节点。
步骤 1:候选过滤。
步骤 2:相似性计算。
步骤 3:排名和选择。
-
集成增强生成:通过拓扑增强图检索和多阶段过滤,获得了查询相关图谱知识的两个关键组件:
-
i) 连接重要实体的基本关系,捕捉语义依赖和结构模式;
-
ii) 包含关键上下文信息的最佳文本块。
三、效果评估
3.1 性能分析

现有 RAG 系统在 SLM 下的性能下降:当前 RAG 系统在使用小型语言模型 (SLM) 时面临严峻挑战,暴露出其架构的根本性脆弱性。
基于高级 LLM 的 RAG 方法性能大幅下降,LightRAG 的准确率从 56.90% 骤降至 35.42%,而 GraphRAG 因无法生成高质量内容而完全失效。尽管 NaiveRAG 等基础检索系统表现出一定韧性,但它们功能有限,缺乏高级推理能力。
现有高级系统对复杂语言能力的过度依赖导致在使用简单模型时出现根本性故障,这在资源受限的环境中构成了广泛采用的重要障碍。
MiniRAG性能非常稳定:MiniRAG 即使在简单语言模型下也能保持强劲性能,特别适合资源受限的环境,同时保留了 RAG 系统的核心功能。
存储效率与性能保持:MiniRAG 在保持高准确率的同时展示了卓越的存储效率。MiniRAG 在仅需 25% 的存储空间的情况下实现了优于 LightRAG 等基线的准确率。这种存储需求的显著减少,加上保持或提高的准确率,代表了高效 RAG 系统设计的重大进步。
3.2 消融分析

将 MiniRAG 与几种变体进行对比,这些变体分别进行了:
- 替换语义驱动的索引:用基于描述的索引方法替换了 MiniRAG 的异构图索引,该方法需要全面的语义理解以生成准确的实体/边缘描述,类似于 LightRAG 和 GraphRAG 中使用的方法。
- 移除边缘信息
- 移除块节点
作者发现,当用文本语义驱动索引技术替换 MiniRAG 的索引方法时,性能显著下降。验证了关于小型语言模型 (SLM) 及其固有局限性的初始假设——特别是它们在全面语义理解方面的限制,这影响了生成具有实体关系的复杂知识图以及创建相应的全面文本描述。
移除边缘信息或块节点都会显著影响系统性能。这些元素具有双重目的:通过查询引导推理路径发现促进有效的查询匹配,同时在数据索引阶段补偿 SLM 的固有局限性。
论文原文: https://arxiv.org/abs/2501.06713
获取更多最新 Arxiv 论文更新: https://github.com/HuggingAGI/HuggingArxiv!
如何系统学习掌握AI大模型?
AI大模型作为人工智能领域的重要技术突破,正成为推动各行各业创新和转型的关键力量。抓住AI大模型的风口,掌握AI大模型的知识和技能将变得越来越重要。
学习AI大模型是一个系统的过程,需要从基础开始,逐步深入到更高级的技术。
这里给大家精心整理了一份
全面的AI大模型学习资源,包括:AI大模型全套学习路线图(从入门到实战)、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等,资料免费分享!

1. 成长路线图&学习规划
要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。
这里,我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。可以说是最科学最系统的学习成长路线。
2. 大模型经典PDF书籍
书籍和学习文档资料是学习大模型过程中必不可少的,我们精选了一系列深入探讨大模型技术的书籍和学习文档,它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。(书籍含电子版PDF)

3. 大模型视频教程
对于很多自学或者没有基础的同学来说,书籍这些纯文字类的学习教材会觉得比较晦涩难以理解,因此,我们提供了丰富的大模型视频教程,以动态、形象的方式展示技术概念,帮助你更快、更轻松地掌握核心知识。

4. 2024行业报告
行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。

5. 大模型项目实战
学以致用 ,当你的理论知识积累到一定程度,就需要通过项目实战,在实际操作中检验和巩固你所学到的知识,同时为你找工作和职业发展打下坚实的基础。

6. 大模型面试题
面试不仅是技术的较量,更需要充分的准备。
在你已经掌握了大模型技术之后,就需要开始准备面试,我们将提供精心整理的大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。

全套的AI大模型学习资源已经整理打包,有需要的小伙伴可以
微信扫描下方CSDN官方认证二维码,免费领取【保证100%免费】

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐
所有评论(0)