论文基本信息

题目:LLM4VKG: Leveraging Large Language Models for Virtual Knowledge Graph Construction
作者:Guohui Xiao, Lin Ren, Guilin Qi, Haohan Xue, Marco Di Panfilo, Davide Lanti
机构:东南大学(中国)、博尔扎诺自由大学(意大利)
发表地点与年份:第34届国际人工智能联合会议(IJCAI-25),2025年

关键词术语与定义

  • Virtual Knowledge Graph (VKG):一种虚拟知识图谱,通过映射将关系数据库与领域本体连接,支持SPARQL查询,数据不物化。
  • Mapping Patterns:模式驱动的映射模板,包括SE(模式实体)、SR(模式关系)、SRm(带合并的模式关系)、SH(模式层次)。
  • LLM Modules:包括Retriever、Matcher、Namer,用于数据库元素与本体元素的对齐与命名。

摘要(详细复述)

虚拟知识图谱(VKG)是数据集成中的一种有效解决方案,但其构建通常需要大量专家知识,包括本体开发、模式分析和映射创建。传统基于规则的方法在处理命名模糊性和匹配问题时表现不佳。大型语言模型(LLM)具有处理上下文相关文本的能力,为解决这一问题提供了可能。本文提出LLM4VKG,一个利用LLM自动化VKG构建的框架。在RODI基准测试上的实验表明,LLM4VKG优于现有最优方法,平均F1分数提升+17%,最高提升+39%。此外,LLM4VKG对不完整本体具有鲁棒性,并能处理现有方法无法应对的复杂映射任务。


研究背景与动机

学术/应用场景与痛点

  • 企业数据多存储于关系数据库中,难以用图结构直接查询。
  • VKG构建需人工设计映射,耗时长、依赖专家知识。
  • 本体不完整、命名不一致等问题进一步增加构建难度。

主流路线与代表工作

方法类别 代表工作 优点 不足
传统映射生成 BootOX, IncMap, Ontop 支持R2RML映射、类层次识别 对复杂映射、命名模糊性处理差
基于LLM的映射 Vanilla LLM (GPT-4o, DeepSeek-V3) 语义理解强、可生成映射 输出不稳定,需人工修正
本体学习与对齐 OLALA, LLMs4OM 减少人工标注依赖 对复杂推理任务仍需微调

问题定义(形式化)

输入

  • 数据库模式 Σ\SigmaΣ
  • 初始本体 T0\mathcal{T}_0T0

输出

  • VKG 规范 P=(T,M,Σ)\mathcal{P} = (\mathcal{T}, \mathcal{M}, \Sigma)P=(T,M,Σ),其中 T0⊆T\mathcal{T}_0 \subseteq \mathcal{T}T0T

目标

  • T\mathcal{T}T 应捕捉领域知识
  • M\mathcal{M}M 正确建立 T\mathcal{T}TΣ\SigmaΣ 之间的映射关系

评估目标

  • 通过查询对(SQL vs. SPARQL)的F1分数评估映射质量

创新点

  1. 首次将LLM与映射模式结合用于VKG构建:提出LLM4VKG框架,自动化完成本体补全与映射生成。
  2. 设计三级LLM对齐策略:Retriever → Matcher → Namer,解决属性命名与概念匹配的模糊性问题。
  3. 构建基于RODI的自动评估系统:支持对生成本体与映射的质量进行系统评估。

方法与核心思路

整体框架

DB Schema
Mapping Pattern Recognition
Pattern Instances
LLM Modules
Ontology Completion
Mapping Bootstrapping
Final VKG Specification

步骤分解

  1. Mapping Pattern Recognition

    • 将数据库模式 Σ\SigmaΣ 转换为图结构 GΣG_{\Sigma}GΣ
    • 使用SPARQL查询识别SE、SR、SRm、SH四种模式实例
  2. LLM Modules

    • Retriever:基于句子相似度模型检索候选本体元素
    • Matcher:使用生成式LLM判断匹配程度(High/Medium/Low)
    • Namer:生成新的类或属性名称,确保语义一致性
  3. Ontology Completion & Mapping Bootstrapping

    • 按顺序处理SH、SR、SRm、SE模式
    • 使用DB2Ont函数对齐数据库元素与本体元素
    • 生成映射并扩展本体

模块与交互

  • Retriever:输入为数据库元素 edbe_{db}edb 和本体元素集合 Eon\mathbf{E}_{on}Eon,输出为Top-nnn 候选集。
  • Matcher:输入同Retriever,输出为匹配程度 ddd 和匹配元素 eonme^{m}_{on}eonm
  • Namer:输入为1或2个元素,输出为新生成的类或属性名称。

公式与符号

  • 映射形式:(s:Q(x),t:L)(s:Q(\mathbf{x}), t:\mathbf{L})(s:Q(x),t:L)
  • 虚拟ABox:MD={L[x↦o]∣(x↦o)∈Q(x)D,(s:Q(x),t:L)∈M,L∈L}\mathcal{M}_{\mathcal{D}} = \{L[\mathbf{x} \mapsto \mathbf{o}] \mid (\mathbf{x} \mapsto \mathbf{o}) \in Q(\mathbf{x})^{\mathcal{D}}, (s:Q(\mathbf{x}), t:\mathbf{L}) \in \mathcal{M}, L \in \mathbf{L}\}MD={L[xo](xo)Q(x)D,(s:Q(x),t:L)M,LL}

伪代码

Input: DB Schema Σ, Initial Ontology T₀
Output: VKG Specification P = (T, M, Σ)

1: GΣ ← ConvertToGraph(Σ)
2: Patterns ← {SH, SR, SRm, SE}
3: for pattern in Patterns do
4:     Instances ← SPARQLQuery(GΣ, pattern)
5:     for inst in Instances do
6:         if pattern == SH then
7:             CE ← DB2Ont(T_E, NC)
8:             CF ← DB2Ont(T_F, NC)
9:             T ← T ∪ {CF ⊆ CE}
10:        else if pattern == SR then
11:            pR ← DB2Ont(T_R, NP)
12:            M ← M ∪ Mapping_SR(pR, T_R, CE, CF)
13:        else if pattern == SRm then
14:            pEF ← DB2Ont(K_EF, NP)
15:            M ← M ∪ Mapping_SRm(pEF, T_E, CE, CF)
16:        else if pattern == SE then
17:            CE ← DB2Ont(T_E, NC)
18:            for a in A_D do
19:                da ← DB2Ont(a, ND)
20:                M ← M ∪ Mapping_SE(CE, da, a)
21: return P

伪代码描述:该算法首先将数据库模式转换为图结构,然后依次识别四种映射模式实例。对于每种模式,使用LLM模块进行数据库元素与本体元素的对齐,并生成相应的映射和本体公理,最终输出完整的VKG规范。

复杂度分析

  • 时间开销主要取决于SPARQL查询执行和LLM调用次数。
  • 空间开销为 O(∣Σ∣+∣T∣)O(|\Sigma| + |\mathcal{T}|)O(∣Σ∣+T),存储图结构和本体。

关键设计选择

  • 模式处理顺序:SH → SR → SRm → SE,避免重叠。
  • 匹配度分级:High/Medium/Low,控制是否生成新元素。
  • 使用预训练相似度模型:提高检索效率,减少LLM调用。

实验设置

数据集

  • RODI:包含Conference、Geodata、Oil & Gas三个领域,平均样本数、表数、列数等统计如下:
领域 样本数 表数 列数 外键数 查询对数 类数 对象属性数 数据属性数
Conference 26 38.3 93.4 51.2 29.8 55.5 39.3 17.0
Geodata 5 154.6 290.8 64.4 49.4 23.0 44.0 27.0
Oil & Gas 2 70.0 962.0 78.0 228.0 378.5 148.0 237.0

对比基线

  • Tradition:BootOX, IncMap, COMA++, D2RQ, MIRROR, ontop
  • Vanilla LLM:GPT-4o, DeepSeek-V3, o1

评价指标

  • F1分数:P=1−∣res∖ref∣∣res∣, R=1−∣ref∖res∣∣ref∣, F1=2×P×RP+RP = 1 - \frac{|res \setminus ref|}{|res|},\ R = 1 - \frac{|ref \setminus res|}{|ref|},\ F1 = \frac{2 \times P \times R}{P + R}P=1resresref, R=1refrefres, F1=P+R2×P×R

实现细节

  • Retriever:bge-m3
  • Matcher/Namer:GPT-4o, GPT-4o-mini, Qwen2.5-7b
  • 系统:Ontop VKG

实验结果与分析

主结果对比

场景 BootOX IncMap DeepSeek-V3 o1 GPT-4o LLM4VKG (GPT-4o) LLM4VKG (GPT-4o-mini) LLM4VKG (Qwen2.5-7b)
AN 0.71 0.58 0.53 0.37 0.09 0.91 0.85 0.87
Res 0.45 0.41 0.43 0.46 0.12 0.61 0.61 0.50
CC 0.48 0.38 0.31 0.51 0.14 0.72 0.69 0.68
MF 0.32 0.41 0.43 0.38 0.15 0.51 0.44 0.43
Den 0.44 0.40 0.44 0.48 0.16 0.52 0.52 0.34
avg 0.48 0.44 0.43 0.44 0.13 0.65 0.62 0.56
  • LLM4VKG在所有场景下均优于传统方法,最高提升+39%(AN场景)。
  • 即使使用小规模开源模型Qwen2.5-7b,仍优于BootOX。

消融实验

方法 AN Res CC MF Den avg
ours 0.91 0.61 0.72 0.51 0.52 0.65
-Matcher 0.76 0.53 0.66 0.35 0.33 0.53
-SH 0.64 0.51 0.62 0.46 0.40 0.52
-SR 0.84 0.49 0.48 0.49 0.52 0.56
-SRm 0.84 0.53 0.65 0.49 0.52 0.61
-SE 0.19 0.26 0.28 0.00 0.08 0.16
  • Matcher和SE对性能影响最大,说明LLM推理和实体映射是关键。

鲁棒性测试(RODI-T)

  • 即使移除25%本体词汇,LLM4VKG仍保持平均F1=0.46,接近BootOX完整本体性能。
  • 对象属性(O)的F1下降最显著,因其涉及多表关联,难以精确复现。

复现性清单

  • 代码与数据:https://github.com/HomuraT/LLM4VKG
  • 模型与依赖:bge-m3, GPT-4o, Qwen2.5-7b, Ontop VKG
  • 环境:未明确说明硬件与训练时长
  • 评测脚本:基于RODI基准,使用LogMap进行本体对齐

结论与未来工作

LLM4VKG通过结合LLM与映射模式,实现了VKG构建的自动化,并在不完整本体和复杂映射任务中表现出鲁棒性。未来工作包括:

  1. 扩展更多映射模式
  2. 利用数据库统计信息增强本体构建
  3. 构建更全面的评测数据集

表格汇总:主结果与消融实验

方法 AN Res CC MF Den avg
BootOX 0.71 0.45 0.48 0.32 0.44 0.48
LLM4VKG (GPT-4o) 0.91 0.61 0.72 0.51 0.52 0.65
-Matcher 0.76 0.53 0.66 0.35 0.33 0.53
-SE 0.19 0.26 0.28 0.00 0.08 0.16
Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐