Agentic-KGR:通过多智能体强化学习实现知识图谱与大模型的共同进化
摘要:本文提出Agentic-KGR框架,通过多轮强化学习实现大语言模型与知识图谱的动态协同进化。该框架突破传统静态知识库限制,引入三大创新机制:动态本体扩展实现实时知识演化,共同进化记忆架构支持参数-知识双向优化,可学习提示压缩器提升计算效率。实验表明,在知识抽取任务中性能提升33.3分,问答任务提升12.8分,验证了该框架在构建自适应知识系统方面的有效性。这一研究为知识增强AI系统提供了新范式

文章摘要
本文提出Agentic-KGR框架,通过多轮强化学习实现大语言模型与知识图谱的共同进化。该方法引入动态模式扩展、检索增强记忆系统和可学习的多尺度提示压缩机制,在知识抽取任务中比现有方法提升33.3分,在问答任务中提升12.8分,为自我进化的知识系统开辟了新范式。
原文pdf:https://t.zsxq.com/w5PWY
一、研究背景:静态知识库的困境
1.1 大语言模型的知识困境
大语言模型(LLMs)在自然语言处理和知识密集型应用中展现了革命性的能力,能够理解和生成类人文本。然而,它们存在两个关键挑战:容易产生幻觉和无法获取最新信息,这严重限制了其在可靠知识推理任务中的应用。
知识图谱(KGs)以其结构化的实体和关系表示,为增强LLM的可靠性提供了一个有前景的解决方案,通过提供事实依据来支撑模型输出。LLMs与KGs的整合已成为关键研究方向,特别是在开发需要全面知识覆盖和精确推理能力的智能问答系统方面。
1.2 现有方法的局限性
尽管图检索增强生成(GraphRAG)在通过整合结构化知识来减少幻觉方面取得了显著进展,但当前方法仍面临严重限制:
静态知识库问题:
-
依赖预先构建的静态知识图谱
-
存在覆盖范围缺口
-
时效性过时
-
无法适应新兴领域知识或不断变化的查询模式
传统强化学习的局限:
-
主要关注固定图结构内的路径查找
-
忽视了推理智能体与知识库之间共同进化的潜力
-
知识构建与利用分离,形成根本性瓶颈
优化策略缺陷:
-
单目标优化无法平衡有效知识抽取和准确问答的双重要求
-
导致集成系统性能次优
这些局限性要求向自适应知识系统转变,能够通过与数据源和推理任务的迭代交互,动态构建、扩展和完善知识图谱。
二、Agentic-KGR框架:核心创新
2.1 框架概述
Agentic-KGR是一个通过多轮强化学习实现LLMs与知识图谱共同进化的创新框架。其核心创新在于将知识构建和利用重新定义为相互关联、相互强化的过程,而非传统的顺序阶段。

如图所示的产品问答场景,展示了多轮交互式知识发现过程。系统能够:
-
识别知识缺口
-
动态扩展图谱模式
-
实时更新知识结构
-
优化检索和推理路径
2.2 三大核心创新
2.2.1 动态本体扩展框架
传统知识图谱依赖预定义的固定模式,限制了其适应新领域的能力。Agentic-KGR引入动态本体扩展机制,能够:
- 实时结构演化
:在训练过程中系统性地扩展图本体,突破预定义边界
- 自适应模式增强
:根据任务需求和数据特征,自动发现和添加新的实体类型和关系类型
- 持续学习能力
:随着交互的深入,知识图谱的表达能力不断增强
这种机制使得知识图谱能够在推理过程中自然生长,而非受限于初始设计。
2.2.2 共同进化记忆架构
这是Agentic-KGR最核心的创新点,实现了神经表征与知识结构之间的双向适应:
记忆机制特点:
- 参数-知识耦合优化
:模型参数和知识图谱通过迭代精炼过程同步更新
- 检索增强记忆系统
:持续优化知识图谱构建,并在训练过程中提供全面的图观察
- 协同进化
:一个组件的改进会增强整体系统性能
工作原理:
系统通过多轮交互不断积累经验,既更新模型的推理能力,又丰富知识图谱的内容和结构。这种共同进化确保了推理智能体和知识结构的协同提升。
2.2.3 可学习的多尺度提示压缩器
为了解决大规模知识图谱带来的计算复杂度问题,框架引入了智能提示压缩机制:
核心特性:
- 跨注意力机制
:通过交叉注意力实现语义保留
- 主干模型无关
:可以与不同的基础模型配合使用
- 自适应上下文蒸馏
:基于查询的上下文自适应压缩
- 计算开销降低
:在保持关键信息的同时显著减少计算复杂度
该机制使模型能够关注模式相关的证据模式,提高了跨基准数据集的抽取质量。
三、技术实现:多轮强化学习范式
3.1 双重奖励机制
Agentic-KGR采用创新的双重奖励设计,平衡探索与利用:
知识抽取奖励:
-
评估图谱密度、覆盖范围和质量
-
鼓励发现新知识领域
-
惩罚虚假连接和低质量三元组
问答性能奖励:
-
评估下游任务准确性
-
优化检索链路有效性
-
提升答案基础性
这种双重机制在探索新知识领域与利用已建立模式之间取得了有效平衡,使得抽取的知识图谱更加全面和准确。
3.2 多轮交互优化
与传统单轮训练不同,Agentic-KGR实施多轮策略:
第一轮: 基础知识抽取和图谱构建
第二轮: 基于第一轮反馈优化抽取策略
第N轮: 持续迭代,逐步完善知识结构和推理能力
实验表明,单轮强化学习中观察到的性能平台期,通过多轮、记忆耦合的策略更新得以持续突破,验证了从7B到32B参数规模的共同进化假设。
四、实验评估:显著的性能提升
4.1 实验设计
评估涵盖两个关键维度:
- 知识图谱抽取性能
- 端到端问答性能
使用多个基准数据集进行测试,包括ConfigKG等专业领域数据集。
4.2 知识抽取任务结果
实验结果显示了不同模型配置和训练方法的系统性改进:
关键发现:
- 模型规模效应
:性能随模型规模提升而系统性改善
- 方法优势明显
:Agentic-KGR通过共同进化参数-知识优化实现卓越性能
- 关系抽取突出
:在关系抽取(RE)任务上的提升最为显著,而非命名实体识别(NER)
性能数据:
-
ConfigKG上的NER任务相对简单,所有模型都达到了一致的高分
- 关系抽取提升最大
,反映了方法设计的核心价值:
-
动态模式扩展增加了关系可发现性
-
检索增强记忆减少了虚假连接
-
可学习提示压缩使模型聚焦于模式相关证据
-
相比现有强化学习方法,图谱抽取性能提升高达33.3分。
4.3 端到端问答任务结果

下游问答评估确认了图谱质量而非仅仅规模驱动性能:
主要结论:
-
Agentic-KGR配置在大多数领域占据主导地位
-
在模式广度和跨文档链接关键的场景中,提升最为显著
-
性能提升与参数数量并非简单叠加关系
性能机制:
-
通过更密集、类型更好的知识邻域减少检索遗漏
-
有效缓解幻觉问题
-
更有效的检索链和答案基础
下游问答任务提升高达12.8分,验证了抽取中的结构化、以关系为中心的改进直接转化为下游任务收益。

4.4 覆盖率与质量分析
图6展示了覆盖范围和质量的性能分析,直观呈现了:
-
知识图谱覆盖范围的扩展趋势
-
不同方法在质量维度的表现差异
-
覆盖范围与准确性之间的平衡关系
分析表明,Agentic-KGR在保持高质量的同时实现了更广泛的知识覆盖。
五、技术优势与创新点总结
5.1 范式转变
Agentic-KGR代表了知识系统设计的范式转变:
从静态到动态:
-
传统方法:预构建 → 固定使用
-
Agentic-KGR:构建 ↔ 使用 ↔ 优化(循环)
从分离到融合:
-
传统方法:知识库与推理系统独立
-
Agentic-KGR:知识与推理共同进化
5.2 核心技术优势
- 自主学习能力
:通过强化学习自主学习有效的图数据库交互模式
- 实时适应性
:实时知识抽取、构建和扩展能力
- 质量保证
:双重奖励机制确保抽取知识的高质量
- 计算效率
:智能压缩机制平衡性能与效率
- 可扩展性
:从7B到32B参数的跨规模验证
5.3 实际应用价值
产品问答场景(如图1所示):
-
用户提问触发知识检索
-
发现知识缺口时自动扩展图谱
-
多轮交互逐步完善答案质量
-
新知识持久化到图谱中供未来使用
这种机制特别适合:
-
快速变化的领域(如科技、金融)
-
长尾知识需求场景
-
需要持续学习的企业知识管理系统
六、GraphRAG集成:协同增强
6.1 集成架构
当动态构建的知识图谱集成到GraphRAG系统中时,显著增强了下游问答性能,验证了改进的知识抽取与推理能力之间的协同关系。
6.2 性能提升机制
检索增强:
-
更丰富的知识邻域
-
更精确的关系路径
-
更低的检索遗漏率
推理增强:
-
更可靠的事实基础
-
减少幻觉产生
-
提高答案准确性
整体效果:
集成GraphRAG的完整工作流在参数-知识共同进化优化下,实现了显著的端到端性能提升。
七、方法论意义与未来展望
7.1 理论贡献
Agentic-KGR为智能体-环境共同进化建立了新范式:
核心洞察:
-
智能体与动态知识环境的持续交互可以相互增强两个组件
-
知识系统应该是活的、不断进化的有机体
-
强化学习可以有效驱动这种共同进化过程
方法论创新:
-
首次系统性地实现了模型参数与知识结构的联合优化
-
证明了多轮交互相比单轮训练的显著优势
-
为自我改进的知识系统设计提供了可行路径
7.2 应用前景
企业知识管理:
-
构建持续进化的企业知识库
-
自动发现和整合新知识
-
提供更准确的智能问答服务
科研领域:
-
加速科学文献的知识抽取
-
支持跨学科知识整合
-
辅助研究假设生成和验证
垂直行业应用:
-
医疗:疾病诊断知识库动态更新
-
法律:法规变更的实时追踪
-
金融:市场知识的持续积累
7.3 技术演进方向
多模态扩展:
-
整合图像、视频等多模态信息
-
构建多模态知识图谱
-
实现跨模态推理能力
大规模部署:
-
优化计算效率
-
分布式训练和推理
-
边缘设备适配
领域专业化:
-
针对特定行业深度定制
-
领域知识的精细化表达
-
专业术语的准确处理
八、结论
Agentic-KGR框架通过多轮强化学习实现了语言模型与动态知识图谱的共同进化,代表了知识增强AI系统的重要突破。该框架通过动态本体扩展、检索增强记忆系统和可学习的多尺度提示压缩三大创新,在知识抽取任务上相比现有方法提升33.3分,在问答任务上提升12.8分。
更重要的是,Agentic-KGR超越了传统静态知识库的局限,为模型赋予了实时知识抽取、构建和扩展能力。集成GraphRAG检索后,在下游问答任务中展现了卓越性能。这项研究为模型-环境共同进化建立了新范式,推进了智能体强化学习领域,展示了智能体与动态知识环境之间的持续交互如何相互增强。
两阶段验证确认了Agentic-KGR生成高质量、领域自适应知识图谱的能力,为自我改进的知识系统奠定了基础,这些系统能够与其运营环境持续共同进化。这不仅是技术上的进步,更是AI系统设计理念的根本转变——从静态工具到动态学习伙伴。
欢迎加入「知识图谱增强大模型产学研」知识星球,获取最新产学研相关"知识图谱+大模型"相关论文、政府企业落地案例、避坑指南、电子书、文章等,行业重点是医疗护理、医药大健康、工业能源制造领域,也会跟踪AI4S科学研究相关内容,以及Palantir、OpenAI、微软、Writer、Glean、OpenEvidence等相关公司进展。
火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐
所有评论(0)