2025 IJCAI LLM4VKG: Leveraging Large Language Models for Virtual Knowledge Graph Construction
摘要:本文提出LLM4VKG框架,利用大型语言模型自动化构建虚拟知识图谱(VKG)。针对传统方法依赖专家知识、难以处理命名模糊性等问题,该框架通过Retriever、Matcher、Namer三级模块实现数据库与本体元素的对齐,结合四种映射模式(SH/SR/SRm/SE)生成VKG规范。在RODI基准测试中,LLM4VKG平均F1分数比现有最优方法提升17%,最高提升39%,且对不完整本体具有鲁棒
论文基本信息
题目:LLM4VKG: Leveraging Large Language Models for Virtual Knowledge Graph Construction
作者:Guohui Xiao, Lin Ren, Guilin Qi, Haohan Xue, Marco Di Panfilo, Davide Lanti
机构:东南大学(中国)、博尔扎诺自由大学(意大利)
发表地点与年份:第34届国际人工智能联合会议(IJCAI-25),2025年
关键词术语与定义:
- Virtual Knowledge Graph (VKG):一种虚拟知识图谱,通过映射将关系数据库与领域本体连接,支持SPARQL查询,数据不物化。
- Mapping Patterns:模式驱动的映射模板,包括SE(模式实体)、SR(模式关系)、SRm(带合并的模式关系)、SH(模式层次)。
- LLM Modules:包括Retriever、Matcher、Namer,用于数据库元素与本体元素的对齐与命名。
摘要(详细复述)
虚拟知识图谱(VKG)是数据集成中的一种有效解决方案,但其构建通常需要大量专家知识,包括本体开发、模式分析和映射创建。传统基于规则的方法在处理命名模糊性和匹配问题时表现不佳。大型语言模型(LLM)具有处理上下文相关文本的能力,为解决这一问题提供了可能。本文提出LLM4VKG,一个利用LLM自动化VKG构建的框架。在RODI基准测试上的实验表明,LLM4VKG优于现有最优方法,平均F1分数提升+17%,最高提升+39%。此外,LLM4VKG对不完整本体具有鲁棒性,并能处理现有方法无法应对的复杂映射任务。
研究背景与动机
学术/应用场景与痛点:
- 企业数据多存储于关系数据库中,难以用图结构直接查询。
- VKG构建需人工设计映射,耗时长、依赖专家知识。
- 本体不完整、命名不一致等问题进一步增加构建难度。
主流路线与代表工作:
| 方法类别 | 代表工作 | 优点 | 不足 |
|---|---|---|---|
| 传统映射生成 | BootOX, IncMap, Ontop | 支持R2RML映射、类层次识别 | 对复杂映射、命名模糊性处理差 |
| 基于LLM的映射 | Vanilla LLM (GPT-4o, DeepSeek-V3) | 语义理解强、可生成映射 | 输出不稳定,需人工修正 |
| 本体学习与对齐 | OLALA, LLMs4OM | 减少人工标注依赖 | 对复杂推理任务仍需微调 |
问题定义(形式化)
输入:
- 数据库模式 Σ\SigmaΣ
- 初始本体 T0\mathcal{T}_0T0
输出:
- VKG 规范 P=(T,M,Σ)\mathcal{P} = (\mathcal{T}, \mathcal{M}, \Sigma)P=(T,M,Σ),其中 T0⊆T\mathcal{T}_0 \subseteq \mathcal{T}T0⊆T
目标:
- T\mathcal{T}T 应捕捉领域知识
- M\mathcal{M}M 正确建立 T\mathcal{T}T 与 Σ\SigmaΣ 之间的映射关系
评估目标:
- 通过查询对(SQL vs. SPARQL)的F1分数评估映射质量
创新点
- 首次将LLM与映射模式结合用于VKG构建:提出LLM4VKG框架,自动化完成本体补全与映射生成。
- 设计三级LLM对齐策略:Retriever → Matcher → Namer,解决属性命名与概念匹配的模糊性问题。
- 构建基于RODI的自动评估系统:支持对生成本体与映射的质量进行系统评估。
方法与核心思路
整体框架
步骤分解
-
Mapping Pattern Recognition:
- 将数据库模式 Σ\SigmaΣ 转换为图结构 GΣG_{\Sigma}GΣ
- 使用SPARQL查询识别SE、SR、SRm、SH四种模式实例
-
LLM Modules:
- Retriever:基于句子相似度模型检索候选本体元素
- Matcher:使用生成式LLM判断匹配程度(High/Medium/Low)
- Namer:生成新的类或属性名称,确保语义一致性
-
Ontology Completion & Mapping Bootstrapping:
- 按顺序处理SH、SR、SRm、SE模式
- 使用DB2Ont函数对齐数据库元素与本体元素
- 生成映射并扩展本体
模块与交互
- Retriever:输入为数据库元素 edbe_{db}edb 和本体元素集合 Eon\mathbf{E}_{on}Eon,输出为Top-nnn 候选集。
- Matcher:输入同Retriever,输出为匹配程度 ddd 和匹配元素 eonme^{m}_{on}eonm。
- Namer:输入为1或2个元素,输出为新生成的类或属性名称。
公式与符号
- 映射形式:(s:Q(x),t:L)(s:Q(\mathbf{x}), t:\mathbf{L})(s:Q(x),t:L)
- 虚拟ABox:MD={L[x↦o]∣(x↦o)∈Q(x)D,(s:Q(x),t:L)∈M,L∈L}\mathcal{M}_{\mathcal{D}} = \{L[\mathbf{x} \mapsto \mathbf{o}] \mid (\mathbf{x} \mapsto \mathbf{o}) \in Q(\mathbf{x})^{\mathcal{D}}, (s:Q(\mathbf{x}), t:\mathbf{L}) \in \mathcal{M}, L \in \mathbf{L}\}MD={L[x↦o]∣(x↦o)∈Q(x)D,(s:Q(x),t:L)∈M,L∈L}
伪代码
Input: DB Schema Σ, Initial Ontology T₀
Output: VKG Specification P = (T, M, Σ)
1: GΣ ← ConvertToGraph(Σ)
2: Patterns ← {SH, SR, SRm, SE}
3: for pattern in Patterns do
4: Instances ← SPARQLQuery(GΣ, pattern)
5: for inst in Instances do
6: if pattern == SH then
7: CE ← DB2Ont(T_E, NC)
8: CF ← DB2Ont(T_F, NC)
9: T ← T ∪ {CF ⊆ CE}
10: else if pattern == SR then
11: pR ← DB2Ont(T_R, NP)
12: M ← M ∪ Mapping_SR(pR, T_R, CE, CF)
13: else if pattern == SRm then
14: pEF ← DB2Ont(K_EF, NP)
15: M ← M ∪ Mapping_SRm(pEF, T_E, CE, CF)
16: else if pattern == SE then
17: CE ← DB2Ont(T_E, NC)
18: for a in A_D do
19: da ← DB2Ont(a, ND)
20: M ← M ∪ Mapping_SE(CE, da, a)
21: return P
伪代码描述:该算法首先将数据库模式转换为图结构,然后依次识别四种映射模式实例。对于每种模式,使用LLM模块进行数据库元素与本体元素的对齐,并生成相应的映射和本体公理,最终输出完整的VKG规范。
复杂度分析
- 时间开销主要取决于SPARQL查询执行和LLM调用次数。
- 空间开销为 O(∣Σ∣+∣T∣)O(|\Sigma| + |\mathcal{T}|)O(∣Σ∣+∣T∣),存储图结构和本体。
关键设计选择
- 模式处理顺序:SH → SR → SRm → SE,避免重叠。
- 匹配度分级:High/Medium/Low,控制是否生成新元素。
- 使用预训练相似度模型:提高检索效率,减少LLM调用。
实验设置
数据集:
- RODI:包含Conference、Geodata、Oil & Gas三个领域,平均样本数、表数、列数等统计如下:
| 领域 | 样本数 | 表数 | 列数 | 外键数 | 查询对数 | 类数 | 对象属性数 | 数据属性数 |
|---|---|---|---|---|---|---|---|---|
| Conference | 26 | 38.3 | 93.4 | 51.2 | 29.8 | 55.5 | 39.3 | 17.0 |
| Geodata | 5 | 154.6 | 290.8 | 64.4 | 49.4 | 23.0 | 44.0 | 27.0 |
| Oil & Gas | 2 | 70.0 | 962.0 | 78.0 | 228.0 | 378.5 | 148.0 | 237.0 |
对比基线:
- Tradition:BootOX, IncMap, COMA++, D2RQ, MIRROR, ontop
- Vanilla LLM:GPT-4o, DeepSeek-V3, o1
评价指标:
- F1分数:P=1−∣res∖ref∣∣res∣, R=1−∣ref∖res∣∣ref∣, F1=2×P×RP+RP = 1 - \frac{|res \setminus ref|}{|res|},\ R = 1 - \frac{|ref \setminus res|}{|ref|},\ F1 = \frac{2 \times P \times R}{P + R}P=1−∣res∣∣res∖ref∣, R=1−∣ref∣∣ref∖res∣, F1=P+R2×P×R
实现细节:
- Retriever:bge-m3
- Matcher/Namer:GPT-4o, GPT-4o-mini, Qwen2.5-7b
- 系统:Ontop VKG
实验结果与分析
主结果对比
| 场景 | BootOX | IncMap | DeepSeek-V3 | o1 | GPT-4o | LLM4VKG (GPT-4o) | LLM4VKG (GPT-4o-mini) | LLM4VKG (Qwen2.5-7b) |
|---|---|---|---|---|---|---|---|---|
| AN | 0.71 | 0.58 | 0.53 | 0.37 | 0.09 | 0.91 | 0.85 | 0.87 |
| Res | 0.45 | 0.41 | 0.43 | 0.46 | 0.12 | 0.61 | 0.61 | 0.50 |
| CC | 0.48 | 0.38 | 0.31 | 0.51 | 0.14 | 0.72 | 0.69 | 0.68 |
| MF | 0.32 | 0.41 | 0.43 | 0.38 | 0.15 | 0.51 | 0.44 | 0.43 |
| Den | 0.44 | 0.40 | 0.44 | 0.48 | 0.16 | 0.52 | 0.52 | 0.34 |
| avg | 0.48 | 0.44 | 0.43 | 0.44 | 0.13 | 0.65 | 0.62 | 0.56 |
- LLM4VKG在所有场景下均优于传统方法,最高提升+39%(AN场景)。
- 即使使用小规模开源模型Qwen2.5-7b,仍优于BootOX。
消融实验
| 方法 | AN | Res | CC | MF | Den | avg |
|---|---|---|---|---|---|---|
| ours | 0.91 | 0.61 | 0.72 | 0.51 | 0.52 | 0.65 |
| -Matcher | 0.76 | 0.53 | 0.66 | 0.35 | 0.33 | 0.53 |
| -SH | 0.64 | 0.51 | 0.62 | 0.46 | 0.40 | 0.52 |
| -SR | 0.84 | 0.49 | 0.48 | 0.49 | 0.52 | 0.56 |
| -SRm | 0.84 | 0.53 | 0.65 | 0.49 | 0.52 | 0.61 |
| -SE | 0.19 | 0.26 | 0.28 | 0.00 | 0.08 | 0.16 |
- Matcher和SE对性能影响最大,说明LLM推理和实体映射是关键。
鲁棒性测试(RODI-T)
- 即使移除25%本体词汇,LLM4VKG仍保持平均F1=0.46,接近BootOX完整本体性能。
- 对象属性(O)的F1下降最显著,因其涉及多表关联,难以精确复现。
复现性清单
- 代码与数据:https://github.com/HomuraT/LLM4VKG
- 模型与依赖:bge-m3, GPT-4o, Qwen2.5-7b, Ontop VKG
- 环境:未明确说明硬件与训练时长
- 评测脚本:基于RODI基准,使用LogMap进行本体对齐
结论与未来工作
LLM4VKG通过结合LLM与映射模式,实现了VKG构建的自动化,并在不完整本体和复杂映射任务中表现出鲁棒性。未来工作包括:
- 扩展更多映射模式
- 利用数据库统计信息增强本体构建
- 构建更全面的评测数据集
表格汇总:主结果与消融实验
| 方法 | AN | Res | CC | MF | Den | avg |
|---|---|---|---|---|---|---|
| BootOX | 0.71 | 0.45 | 0.48 | 0.32 | 0.44 | 0.48 |
| LLM4VKG (GPT-4o) | 0.91 | 0.61 | 0.72 | 0.51 | 0.52 | 0.65 |
| -Matcher | 0.76 | 0.53 | 0.66 | 0.35 | 0.33 | 0.53 |
| -SE | 0.19 | 0.26 | 0.28 | 0.00 | 0.08 | 0.16 |
火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐
所有评论(0)