2025 IJCAI LLM4VKG: Leveraging Large Language Models for Virtual Knowledge Graph Construction

w2698515789

858人浏览 · 2025-11-17 17:42:31

w2698515789 · 2025-11-17 17:42:31 发布

论文基本信息

题目：LLM4VKG: Leveraging Large Language Models for Virtual Knowledge Graph Construction
作者：Guohui Xiao, Lin Ren, Guilin Qi, Haohan Xue, Marco Di Panfilo, Davide Lanti
机构：东南大学（中国）、博尔扎诺自由大学（意大利）
发表地点与年份：第34届国际人工智能联合会议（IJCAI-25），2025年

关键词术语与定义：

Virtual Knowledge Graph (VKG)：一种虚拟知识图谱，通过映射将关系数据库与领域本体连接，支持SPARQL查询，数据不物化。
Mapping Patterns：模式驱动的映射模板，包括SE（模式实体）、SR（模式关系）、SRm（带合并的模式关系）、SH（模式层次）。
LLM Modules：包括Retriever、Matcher、Namer，用于数据库元素与本体元素的对齐与命名。

摘要（详细复述）

虚拟知识图谱（VKG）是数据集成中的一种有效解决方案，但其构建通常需要大量专家知识，包括本体开发、模式分析和映射创建。传统基于规则的方法在处理命名模糊性和匹配问题时表现不佳。大型语言模型（LLM）具有处理上下文相关文本的能力，为解决这一问题提供了可能。本文提出LLM4VKG，一个利用LLM自动化VKG构建的框架。在RODI基准测试上的实验表明，LLM4VKG优于现有最优方法，平均F1分数提升+17%，最高提升+39%。此外，LLM4VKG对不完整本体具有鲁棒性，并能处理现有方法无法应对的复杂映射任务。

研究背景与动机

学术/应用场景与痛点：

企业数据多存储于关系数据库中，难以用图结构直接查询。
VKG构建需人工设计映射，耗时长、依赖专家知识。
本体不完整、命名不一致等问题进一步增加构建难度。

主流路线与代表工作：

方法类别	代表工作	优点	不足
传统映射生成	BootOX, IncMap, Ontop	支持R2RML映射、类层次识别	对复杂映射、命名模糊性处理差
基于LLM的映射	Vanilla LLM (GPT-4o, DeepSeek-V3)	语义理解强、可生成映射	输出不稳定，需人工修正
本体学习与对齐	OLALA, LLMs4OM	减少人工标注依赖	对复杂推理任务仍需微调

问题定义（形式化）

输入：

数据库模式 $Σ\Sigma$
初始本体 $T0\mathcal{T}_0$

输出：

VKG 规范 $P=(T,M,Σ)\mathcal{P} = (\mathcal{T}, \mathcal{M}, \Sigma)$ ，其中 $T0⊆T\mathcal{T}_0 \subseteq \mathcal{T}$

目标：

$T\mathcal{T}$ 应捕捉领域知识
$M\mathcal{M}$ 正确建立 $T\mathcal{T}$ 与 $Σ\Sigma$ 之间的映射关系

评估目标：

通过查询对（SQL vs. SPARQL）的F1分数评估映射质量

创新点

首次将LLM与映射模式结合用于VKG构建：提出LLM4VKG框架，自动化完成本体补全与映射生成。
设计三级LLM对齐策略：Retriever → Matcher → Namer，解决属性命名与概念匹配的模糊性问题。
构建基于RODI的自动评估系统：支持对生成本体与映射的质量进行系统评估。

方法与核心思路

整体框架

步骤分解

Mapping Pattern Recognition：
- 将数据库模式 $Σ\Sigma$ 转换为图结构 $GΣG_{\Sigma}$
- 使用SPARQL查询识别SE、SR、SRm、SH四种模式实例
LLM Modules：
- Retriever：基于句子相似度模型检索候选本体元素
- Matcher：使用生成式LLM判断匹配程度（High/Medium/Low）
- Namer：生成新的类或属性名称，确保语义一致性
Ontology Completion & Mapping Bootstrapping：
- 按顺序处理SH、SR、SRm、SE模式
- 使用DB2Ont函数对齐数据库元素与本体元素
- 生成映射并扩展本体

模块与交互

Retriever：输入为数据库元素 $e_{db}$ 和本体元素集合 $Eon\mathbf{E}_{on}$ ，输出为Top- $n$ 候选集。
Matcher：输入同Retriever，输出为匹配程度 $d$ 和匹配元素 $eonme^{m}_{on}$ 。
Namer：输入为1或2个元素，输出为新生成的类或属性名称。

公式与符号

映射形式： $(s:Q(x),t:L)(s:Q(\mathbf{x}), t:\mathbf{L})$
虚拟ABox： $MD={L[x↦o]∣(x↦o)∈Q(x)D,(s:Q(x),t:L)∈M,L∈L}\mathcal{M}_{\mathcal{D}} = \{L[\mathbf{x} \mapsto \mathbf{o}] \mid (\mathbf{x} \mapsto \mathbf{o}) \in Q(\mathbf{x})^{\mathcal{D}}, (s:Q(\mathbf{x}), t:\mathbf{L}) \in \mathcal{M}, L \in \mathbf{L}\}$

伪代码

Input: DB Schema Σ, Initial Ontology T₀
Output: VKG Specification P = (T, M, Σ)

1: GΣ ← ConvertToGraph(Σ)
2: Patterns ← {SH, SR, SRm, SE}
3: for pattern in Patterns do
4:     Instances ← SPARQLQuery(GΣ, pattern)
5:     for inst in Instances do
6:         if pattern == SH then
7:             CE ← DB2Ont(T_E, NC)
8:             CF ← DB2Ont(T_F, NC)
9:             T ← T ∪ {CF ⊆ CE}
10:        else if pattern == SR then
11:            pR ← DB2Ont(T_R, NP)
12:            M ← M ∪ Mapping_SR(pR, T_R, CE, CF)
13:        else if pattern == SRm then
14:            pEF ← DB2Ont(K_EF, NP)
15:            M ← M ∪ Mapping_SRm(pEF, T_E, CE, CF)
16:        else if pattern == SE then
17:            CE ← DB2Ont(T_E, NC)
18:            for a in A_D do
19:                da ← DB2Ont(a, ND)
20:                M ← M ∪ Mapping_SE(CE, da, a)
21: return P

伪代码描述：该算法首先将数据库模式转换为图结构，然后依次识别四种映射模式实例。对于每种模式，使用LLM模块进行数据库元素与本体元素的对齐，并生成相应的映射和本体公理，最终输出完整的VKG规范。

复杂度分析

时间开销主要取决于SPARQL查询执行和LLM调用次数。
空间开销为 $O(∣Σ∣+∣T∣)O(|\Sigma| + |\mathcal{T}|)$ ，存储图结构和本体。

关键设计选择

模式处理顺序：SH → SR → SRm → SE，避免重叠。
匹配度分级：High/Medium/Low，控制是否生成新元素。
使用预训练相似度模型：提高检索效率，减少LLM调用。

实验设置

数据集：

RODI：包含Conference、Geodata、Oil & Gas三个领域，平均样本数、表数、列数等统计如下：

领域	样本数	表数	列数	外键数	查询对数	类数	对象属性数	数据属性数
Conference	26	38.3	93.4	51.2	29.8	55.5	39.3	17.0
Geodata	5	154.6	290.8	64.4	49.4	23.0	44.0	27.0
Oil & Gas	2	70.0	962.0	78.0	228.0	378.5	148.0	237.0

对比基线：

Tradition：BootOX, IncMap, COMA++, D2RQ, MIRROR, ontop
Vanilla LLM：GPT-4o, DeepSeek-V3, o1

评价指标：

F1分数： $\frac{|res \setminus ref|}{|res|},\ R = 1 - \frac{|ref \setminus res|}{|ref|},\ F1 = \frac{2 \times P \times R}{P + R}$

实现细节：

Retriever：bge-m3
Matcher/Namer：GPT-4o, GPT-4o-mini, Qwen2.5-7b
系统：Ontop VKG

实验结果与分析

主结果对比

场景	BootOX	IncMap	DeepSeek-V3	o1	GPT-4o	LLM4VKG (GPT-4o)	LLM4VKG (GPT-4o-mini)	LLM4VKG (Qwen2.5-7b)
AN	0.71	0.58	0.53	0.37	0.09	0.91	0.85	0.87
Res	0.45	0.41	0.43	0.46	0.12	0.61	0.61	0.50
CC	0.48	0.38	0.31	0.51	0.14	0.72	0.69	0.68
MF	0.32	0.41	0.43	0.38	0.15	0.51	0.44	0.43
Den	0.44	0.40	0.44	0.48	0.16	0.52	0.52	0.34
avg	0.48	0.44	0.43	0.44	0.13	0.65	0.62	0.56

LLM4VKG在所有场景下均优于传统方法，最高提升+39%（AN场景）。
即使使用小规模开源模型Qwen2.5-7b，仍优于BootOX。

消融实验

方法	AN	Res	CC	MF	Den	avg
ours	0.91	0.61	0.72	0.51	0.52	0.65
-Matcher	0.76	0.53	0.66	0.35	0.33	0.53
-SH	0.64	0.51	0.62	0.46	0.40	0.52
-SR	0.84	0.49	0.48	0.49	0.52	0.56
-SRm	0.84	0.53	0.65	0.49	0.52	0.61
-SE	0.19	0.26	0.28	0.00	0.08	0.16

Matcher和SE对性能影响最大，说明LLM推理和实体映射是关键。

鲁棒性测试（RODI-T）

即使移除25%本体词汇，LLM4VKG仍保持平均F1=0.46，接近BootOX完整本体性能。
对象属性（O）的F1下降最显著，因其涉及多表关联，难以精确复现。

复现性清单

代码与数据：https://github.com/HomuraT/LLM4VKG
模型与依赖：bge-m3, GPT-4o, Qwen2.5-7b, Ontop VKG
环境：未明确说明硬件与训练时长
评测脚本：基于RODI基准，使用LogMap进行本体对齐

结论与未来工作

LLM4VKG通过结合LLM与映射模式，实现了VKG构建的自动化，并在不完整本体和复杂映射任务中表现出鲁棒性。未来工作包括：

扩展更多映射模式
利用数据库统计信息增强本体构建
构建更全面的评测数据集

表格汇总：主结果与消融实验

方法	AN	Res	CC	MF	Den	avg
BootOX	0.71	0.45	0.48	0.32	0.44	0.48
LLM4VKG (GPT-4o)	0.91	0.61	0.72	0.51	0.52	0.65
-Matcher	0.76	0.53	0.66	0.35	0.33	0.53
-SE	0.19	0.26	0.28	0.00	0.08	0.16