手把手教你用大模型构建知识图谱:从零开始到实际应用的完整指南,小白也能秒变AI大神!
文章提出了融合领域本体与大模型的档案编研成果知识图谱构建框架,包含数据层、概念层、抽取层和图谱层四层结构。通过文献调研与数据处理构建领域本体,选定大模型并设计提示词,实现知识抽取,生成结构化三元组,形成高质量知识图谱。该知识图谱可应用于语义检索、智能问答与智慧写作,为提升档案编研成果的知识服务能力提供可行路径。以电力公司志为案例进行实证研究,验证了该方法的有效性。

摘 要
针对档案编研成果开发利用不足的问题,提出融合领域本体与大模型的知识图谱构建框架,包含数据层、概念层、抽取层和图谱层,并以电力公司志为案例开展实证。通过文献调研与数据处理构建领域本体,选定大模型并设计提示词,实现知识抽取,生成结构化三元组,形成高质量知识图谱。进一步探讨其在语义检索、智能问答与智慧写作中的应用,为提升档案编研成果的知识服务能力提供可行路径。
基于领域本体和大模型的档案编研成果知识图谱构建
2021年6月,中共中央办公厅、国务院办公厅印发《“十四五”全国档案事业发展规划》,提出加快档案事业的数字转型与智能升级,推动知识管理、人工智能等技术在档案深层开发中的应用[1]。2023年2月,全国档案局长馆长会议上,强调要强化资源意识和“大档案观”,优化资源结构,提升编研开发能力与现代化水平[2]。由此可见,利用人工智能等新兴技术深入挖掘档案资源已成为档案事业发展的关键方向。
档案编研成果是对档案原件的深度加工,满足用户或社会需求[3],具有全面系统呈现历史进程、发挥档案显示教育意义和提供有效决策参考等重要价值[4],然而,当前对档案编研成果深度开发利用的研究仍较为有限。电力公司志作为一类重要的档案编研成果,系统记录了电力行业的发展历程与重大事件,具有显著的社会服务与文化宣传功能。近年来,知识图谱作为一种结构化知识表示方式,已在多个领域广泛应用,其通过图结构表达实体及其关系,支持高效的知识组织、查询与推理。构建电力公司志知识图谱,有助于整合分散的行业知识,实现语义化管理,为电力档案的智能化利用提供支撑。
知识抽取是知识图谱构建环节中关键的一个环节,其目的是从非结构化的文本数据中抽取出结构化的知识。基于大语言模型(Large Language Model、LLM,以下简称“大模型”)的知识抽取方法为知识抽取和档案智能利用提供了重要技术支撑[5]。此外领域本体作为对特定领域知识的形式化表达,可提升知识抽取的准确性与语义一致性。将其与大语言模型结合,有助于在保障专业性的基础上提高构建效率,推动高质量知识图谱的快速生成。
基于此,本文针对档案编研成果开发利用不足的问题,提出融合自顶向下与自底向上的知识图谱构建路径,结合领域本体与大模型,并以电力公司志为案例进行实证,为提升档案智能服务能力提供参考。
1 相关研究
1.1档案编研工作。档案编研是通过专业方法对档案进行系统整理与深度挖掘,以提升其利用价值与文化内涵,服务社会发展与文化传承[6]。当前研究主要聚焦三方面:一是档案编研的价值与作用,如何冀华[7]阐述了核工业地质档案编研的重大意义和主要内容,并基于档案编研工作实践提出做好核工业地质档案编研工作的四点建议;二是编研范式的智能化转型,李甜等学者[8]在梳理档案编研的历史发展基础上,回答了何为档案智能编研,档案智能编研如何实现等问题;三是具体案例实践,如“跟着档案观上海”项目展示了数字人文技术在档案编研中的创新应用,将数字化档案与时空地图相融合,提供沉浸式用户体验和丰富的知识服务成果[9]。
总体来看,现有研究多围绕档案编研的必要性、内涵与操作展开,对其成果的深度开发利用关注较少。然而,档案编研成果的进一步开发利用研究具有极其重要的意义,不仅能够支撑组织机构的决策,提高影响能力和服务水平,还有助于文化的传承和弘扬。
1.2 领域本体构建。本体按层次可分为多种类型,其中领域本体(Domain Ontology)用于描述特定领域的核心知识,具有较强专业性。其可涵盖单一或多个相关领域,也可用于特定知识点的形式化表达。在理论研究方面,马文峰等[10]指出,领域本体是对领域知识的规范抽象与描述,兼具知识提取、理解和处理的功能。其主要特征包括:面向应用、聚焦特定学科、明确概念及其属性与关系,并体现规则约束。相较传统知识组织方法,张斌等[11]认为基于本体的知识组织更具动态性、语义揭示能力与推理支持功能。夏天和钱毅[12]强调,构建本体有助于实现档案数据重组的标准化。吕元智[13]也指出,其可减少数字档案知识组织的随意性。
在构建层面,Gruber[14]提出的五项基本原则——清晰、一致、可扩展、最小偏差与最小承诺,被广泛认可。国内学者如唐长乐等[15]采用“七步法”构建了地震档案本体模型,并以此为基础建设知识库;赵维维等人[16]则构建了红色档案资源本体并生成知识图谱。
1.3 知识图谱与大模型。知识图谱是一种结构化的图形模型,用于表示实体及其属性与关系,能够整合海量非结构化信息,为多领域带来显著价值。例如,在档案领域,其可集成多源异构资源,揭示知识关联,构建语义化知识体系[17],并支持智能检索与问答等服务式[18]。知识图谱构建通常包括自顶向下与自底向上两种策略[19]。前者先定义顶层本体框架,再融合实体;后者则从数据出发,通过自动化技术抽取实体、关系与属性。然而,领域知识图谱对知识的准确性与深度要求更高,因此常采用两者结合的方式,以确保结构严谨与内容完备[20]。
近年来,随着大模型(LLM)的发展,尤其是ChatGPT发布以来,其“涌现”能力使其具备处理多种任务的通用性,如文本分类、语义理解和知识抽取[21],研究表明,即使未经参数调优,大模型在自然语言处理任务中也表现优异[22]。已有许多学者使用大模型技术来辅助知识图谱的构建,例如冯钧等学者[23]提出了基于大模型的水工程调度知识图谱的构建方法郑佳明等[24]提出了基于大模型和提示词的标准领域知识图谱的构建路径,包括知识抽取、消歧等操作。
2 基于领域本体和大模型的档案
编研成果知识图谱构建框架设计
本文设计了基于领域本体和大模型的档案编研成果知识图谱构建框架,框架分为数据层、概念层、抽取层和图谱层四个层次,框架结构如图1所示。

图1 档案编研成果知识图谱构建框架
2.1 数据层。数据层旨在获取规范化的档案编研成果知识资源,作为构建领域本体和开展知识抽取的基础。该阶段要依据档案编研成果的资源条件和知识特点,系统性采集、获取档案编研成果知识图谱构建的原始语料,并对其进行预处理,转化为结构化资源。本文以国网天津电力公司编制的电子版《电力公司志》为主要数据源,涵盖PDF、DOC、WPS等多种格式。通过OCR识别、格式转换、内容拆分与校对等步骤,形成标准化文本并存储为TXT文件,确保其真实性、一致性与可用性。
2.2 概念层。概念层任务是构建档案编研成果的领域本体,用以形式化表达核心知识体系,并指导后续知识抽取。本体构建遵循明确性、一致性、可扩展性等五项原则。在领域本体常用的构建方法中,“七步法”是较为经典的本体构建方法,但由于该方法年代较为久远,难以满足特定领域的具体需求。因此,为确保本体构建的质量和准确性,本文采用自上而下(先定义最宽泛的概念,然后进行具象)与自下而上(先定义最具体的概念,然后进行抽象)相结合的思路,了解已有相关知识模型,使用大模型技术获取实体集和关系集,半自动构建档案编研成果领域本体,考虑实际情况凝练出最具代表性、概括性的核心概念作为档案编研成果本体的核心类目,提高语义层面的知识表达和描述能力。档案编研成果领域本体构建流程包括:明确本体范围、梳理知识模型、确定概念集、定义属性、完成本体建模五个步骤。
2.3 抽取层。抽取层基于数据层与概念层实现知识抽取,包含模型选择、提示工程与知识抽取三个环节。首先,应根据数据安全、模型性能、资源消耗及项目需求等因素合理选用大模型,如公网模型可通过API调用,本地部署模型则需配置服务器环境。其次,提示工程通过设计自然语言指令引导模型输出预期结果,其质量直接影响抽取效果。一般研究中的提示词构成包括前缀、指令和输入文,可以选择是否加入少量示例。提示工程使大模型的输出变得更加可控和可预测,有利于提高知识抽取的效率和准确性。将领域本体嵌入提示词中,有助于限定抽取范围、提升准确性。最后,在完成模型调用与提示词设计后,对结构化文本进行实体与关系抽取,生成符合本体规范的知识三元组,为后续图谱构建提供基础。
2.4 图谱层。图谱层的目的是,将抽取层得到抽取结果转换为结构化的三元组形式,并对数据进行深度清洗和去噪,以剔除冗余、错误或不一致的信息。通过这种方式,图谱层能够确保档案编研成果知识图谱的质量和一致性,从而高效地构建出高质量的领域知识图谱。

3 电力公司志领域本体构建
构建电力公司志领域本体旨在为知识抽取提供实体与关系模板,并限定知识边界,指导大模型抽取过程。电力公司志以生产力发展为主线,涵盖技术进步、设备更新与效率提升,同时记录生产关系与管理体制的变革,如组织结构、管理模式和规章制度演变。因此,事件类、人物类和组织机构类被确立为本体构建的核心类目。通过梳理已有领域本体、概念词表及相关标准发现:电力公司志领域尚无可用本体;可借鉴SEM模型进行属性分类;档案与电力领域的术语规范可为分类与属性定义提供参考。在此基础上,本文遵循全覆盖与精简化原则确定概念集,前者确保领域知识无遗漏,后者避免冗余重复。
借助大模型对文本进行实体与关系批量抽取,生成实体关系集合及词云图(见图2、图3),结合通用本体与原始文本分析,最终确立五个核心类:事件类、人物类、组织机构类、时间类、地点类。各类别的定义及示例详见表1。

图2 电力公司志实体集合词云

图3 电力公司志关系集合词云

本文参考SEM模型中的属性定义,对除了人物类外的其余类设置类型属性。在便于分类的同时,也为后续其他利用方式奠定了基础。
①事件类。事件是电力公司志领域本体的核心类,设计的属性值包括事件名称和事件类型。根据该电力公司在编制公司志时的编制思路,以及对电力公司志实体和关系集合的分析,本文将事件类型分为如下十类:领导视察、机构沿革、人事变动、重要会议、突出成就、电力建设、科技创新、党群文化、合作交流、其他事件。事件类型的描述及示例如表2所示。

②人物类。人物是电力公司志中的重要内容,与时间和地点并称为事件的三大基本元素。电力公司志中的人物主要包括各级党政机关干部、各级会议代表、劳动模范和先进人物等。人物类的属性设置包括人物名称、职务、荣誉奖项。
③组织机构类。在电力公司志文本中,存在大量的组织机构名称。组织机构类的属性设置包括机构名称、机构类型。组织机构的类型划分参考现行组织机构分类的标准《组织机构类型(GB/T 20091-2021)》,将组织机构分类为机关、企业、事业单位、社会团体、其他组织机构。在电力公司志领域本体构建时,考虑实际情况,将特别法人中的机关法人单独设为机关,包括中国共产党中央委员会和地方委员会及其他直属机关单位、国务院和地方各级人民政府及其直属机关单位等;将营利法人设为企业,包括有限责任公司、股份责任公司等;将非营利法人中的事业单位法人设为事业单位,包括高等院校、科研院所等;将非营利法人中的社会团体法人设为社会团体类,包括工会、行业协会等;将上述四类不能包括的组织机构归入其他组织机构类。
④时间类。时间也是电力公司志的重要组成部分,本文中获取的电力公司志语料中,每个事件前都注明了事件的发生时间。时间类的属性设置为年、月、日。
⑤地点类。地点同样是电力公司志的重要组成部分,地点类的属性设置为国家、省、市、区(县)。
综上,电力公司志领域本体的数据属性定义如表3所示。

对象属性是对类间关系的描述,电力公司志实体间存在大量的关联关系,对象属性的揭示将成为未来知识挖掘与发现的基础。通过分析和整理、归纳电力公司志中的关系,电力公司志领域本体所定义的主要对象属性如表4所示。

在完成前述工作后,使用斯坦福大学研发的Protégé本体建模工具构建了本文的电力公司志领域本体,构建结果如图4所示。

图4 电力公司志领域本体
4 电力公司志知识抽取及知识图谱构建
在模型选择方面,本文综合考虑数据安全、模型性能、资源消耗及任务适配性四项原则。为保障电力公司志中敏感信息的安全,优先选用支持本地部署的开源大模型,排除需要云端推理的模型(如ChatGPT、文心一言)。同时,结合中文语料训练需求与硬件资源限制,优选参数量适中的中文大模型。最终选定阿里云开源的通义千问2.5-14B-Chat(Qwen2.5-14B-Chat)作为知识抽取模型。
在提示词设计上,基于前文构建的电力公司志领域本体,设计融合本体结构的提示模板,包括前缀、指令与输入文本三部分,以引导模型精准抽取知识(见图5)。

图5 融合公司志领域本体的大模型知识抽取提示词
使用大模型对电力公司志进行知识抽取,并构建知识图谱,如图6所示。

图6 电力公司志领域知识图谱
5 电力公司志知识图谱应用方式
电力公司志知识图谱作为对行业重要事件与信息进行深度整合与结构化的成果,具有多样化的应用前景。本文重点探讨其在档案工作中的三类典型应用。
5.1 语义信息检索。传统的信息检索方式主要基于关键词匹配,这种方式在面对复杂的领域知识时存在诸多局限性,例如无法理解查询语句的真实意图、难以处理同义词和上下位词等问题。而基于知识图谱的语义检索技术则能够有效克服这些不足。知识图谱通过构建电力公司志领域丰富的实体、关系和语义信息,使得系统能够理解用户查询的真实意图,并从海量的电力数据中精准地检索出与用户需求相关的信息。例如,当用户输入“特高压输电技术的发展历程”这一查询语句时,语义检索系统不仅能够识别出“特高压输电技术”这一核心实体,还能理解“发展历程”所涉及的时间序列、重大事件、技术突破等相关语义信息。此外,语义检索还能够处理复杂的查询语句和多条件查询。例如,用户可能想要查询“在某特定地区,因自然灾害导致的电力故障事件及其处理措施”。在这种情况下,需要同时考虑地区、事件类型(自然灾害)、事件结果(电力故障)以及相关的处理措施等多个条件。基于知识图谱的语义检索可以通过对图谱中实体和关系的深度遍历,快速找到符合这些条件的事件,并将相关的故障原因、影响范围、抢修过程等信息完整地呈现给用户。
5.2 智能知识问答。电力行业涉及大量的专业术语和技术细节,传统的问答系统往往难以准确理解用户的问题意图。而基于电力公司志知识图谱的智能知识问答系统能够借助知识图谱中的语义信息和领域知识,实现对用户自然语言问题的深度理解。例如,用户可能以自然语言的形式提问:“某次电力事故的原因是什么?”“如何提高电网的抗灾能力?”等问题。智能问答系统首先通过自然语言处理技术对问题进行解析,提取出问题中的关键实体(如电力事故、电网等)和意图(如询问原因、寻求解决方案等),然后利用知识图谱中的实体关系和知识体系,快速定位到相关的知识节点,并生成准确的答案。
5.3 智慧编研写作。电力档案部门的编研写作工作,如撰写年鉴、大事记等,需要大量的知识储备和数据支持。电力公司志知识图谱能够为编研写作提供丰富的知识素材和数据来源。例如,在撰写“电力行业数字化转型”相关的报告时,工作人员可以通过知识图谱快速获取与数字化转型相关的优秀案例、规章制度等信息,并且能够通过图谱中的关系梳理出这些信息之间的逻辑联系,从而更高效地组织文章内容。此外,知识图谱还可以结合其他人工智能技术为写作提供结构化的知识框架。例如,在撰写年鉴时,系统可以根据知识图谱中的知识网络,使用大模型技术进行梳理整合,形成知识写作大纲,工作人员在此基础上填充具体内容即可。更进一步,大模型技术也可以直接根据知识图谱中的知识直接自动化生成所需的具体内容,工作人员只需进行一些修改审核工作,大大提高了写作效率。
6 总结与展望
本文立足于档案数字转型与智能升级背景,针对档案编研成果开发利用不足的问题,提出了融合领域本体与大模型的知识图谱构建框架,并以电力公司志为案例开展实证研究,探索其知识图谱的典型应用场景。
研究主要贡献包括:一是为电力公司志等档案编研成果的深度开发提供了可参考的方法框架;二是构建了电力公司志领域本体,初步填补了该领域知识模型的空白,也为其他档案资源本体构建提供借鉴;三是验证了融合本体信息的提示工程在知识抽取中的有效性,为相关研究提供实践支持。
未来研究可从两方面拓展:一方面持续完善电力公司志本体体系,提升其覆盖广度与语义深度;另一方面结合人工智能技术发展,探索提升现有知识服务效能的新路径,拓展档案编研成果的服务形式与应用边界,进一步释放其价值。
那么,如何系统的去学习大模型LLM?
作为一名深耕行业的资深大模型算法工程师,我经常会收到一些评论和私信,我是小白,学习大模型该从哪里入手呢?我自学没有方向怎么办?这个地方我不会啊。如果你也有类似的经历,一定要继续看下去!这些问题啊,也不是三言两语啊就能讲明白的。
所以我综合了大模型的所有知识点,给大家带来一套全网最全最细的大模型零基础教程。在做这套教程之前呢,我就曾放空大脑,以一个大模型小白的角度去重新解析它,采用基础知识和实战项目相结合的教学方式,历时3个月,终于完成了这样的课程,让你真正体会到什么是每一秒都在疯狂输出知识点。
由于篇幅有限,⚡️ 朋友们如果有需要全套 《2025全新制作的大模型全套资料》,扫码获取~
👉大模型学习指南+路线汇总👈
我们这套大模型资料呢,会从基础篇、进阶篇和项目实战篇等三大方面来讲解。

👉①.基础篇👈
基础篇里面包括了Python快速入门、AI开发环境搭建及提示词工程,带你学习大模型核心原理、prompt使用技巧、Transformer架构和预训练、SFT、RLHF等一些基础概念,用最易懂的方式带你入门大模型。
👉②.进阶篇👈
接下来是进阶篇,你将掌握RAG、Agent、Langchain、大模型微调和私有化部署,学习如何构建外挂知识库并和自己的企业相结合,学习如何使用langchain框架提高开发效率和代码质量、学习如何选择合适的基座模型并进行数据集的收集预处理以及具体的模型微调等等。
👉③.实战篇👈
实战篇会手把手带着大家练习企业级的落地项目(已脱敏),比如RAG医疗问答系统、Agent智能电商客服系统、数字人项目实战、教育行业智能助教等等,从而帮助大家更好的应对大模型时代的挑战。
👉④.福利篇👈
最后呢,会给大家一个小福利,课程视频中的所有素材,有搭建AI开发环境资料包,还有学习计划表,几十上百G素材、电子书和课件等等,只要你能想到的素材,我这里几乎都有。我已经全部上传到CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】
相信我,这套大模型系统教程将会是全网最齐全 最易懂的小白专用课!!
火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐
所有评论(0)