摘要

引言:中医(TCM)病例记录包含了丰富的临床经验和理论洞见,具有重要的研究和实际价值。然而,传统病例研究面临数据量大、信息复杂以及高效检索和分析困难等挑战。本研究旨在通过利用现代数据技术来改善对中医病例记录的访问和分析。

方法:选取了新安医学著名医师王仲奇共679份病例记录,涵盖41种疾病。研究分为四个阶段:模式层构建、知识提取、整合以及数据存储和可视化。采用大型语言模型(LLM)自动提取关键实体,包括症状、病因、治疗原则和处方。这些实体被结构化成一个中医病例知识图谱。

结果:LLM成功识别并提取了相关实体,然后将其组织成关系三元组。开发了一个基于自然语言输入的中医病例查询系统。使用RAGAS框架评估系统表现,取得了高分:忠实度0.9375,答案相关性0.9686,上下文召回率0.9500;在人类评估中,安全性和可用性水平显著高于未使用RAG的LLM。

讨论:结果表明,将LLM与知识图谱结合使用可显著提高检索中医病例信息的效率和准确性。这种方法在现代化和提升获取临床洞察力方面,在中医研究中可能扮演关键角色。未来的研究可能会探索扩展数据集并完善查询系统,以便更广泛的应用。

关键词

大型语言模型、知识图谱、中医、问答系统、跨学科研究

引言

中医(TCM)经过数千年的发展,代表了一个独特的医疗保健体系,注重整体方法,优先考虑身体、心灵和精神的平衡。中医根植于古代哲学,特别是阴阳概念以及五行理论,这些理论指导了它的诊断和治疗方式。中医病例记录作为中医知识、经验和智慧的重要载体,包含了丰富的理论知识和临床经验。这些记录对指导临床诊断和治疗、揭示治疗洞见以及推动中医发展至关重要。然而,由于中医病例记录常用文言文记载,其内容通常复杂且无结构。

传统上,对中医病例记录的研究依赖于手工阅读和解析,以提取和总结诊断和治疗模式。这种方法耗时耗力,且未能全面挖掘病例记录中有价值的信息。因此,中医案例知识的有效提取和广泛应用受到了显著限制。因此,利用当代技术手段自动化提取和应用中医案例记录已成为中医药研究的主要焦点。

人工智能(AI)的快速发展,特别是大型语言模型(LLMs)的出现,为全面挖掘和组织中医案例知识创造了新机遇。大型语言模型如GPT(2)(生成式预训练Transformer),是在大量文本数据上训练的先进AI系统,使其能够处理并生成类似人类的语言。这些模型可以提取模式、标准化术语和分析非结构化数据,成为探索中医案例记录和促进知识整合的重要工具。

知识图谱(KGs)是结构化的语义数据库,通过实体和网络中的关系组织概念,展示它们之间的相互联系(3)。鉴于中医案例记录固有的层次丰富性和复杂性,知识图谱特别适合有效表示此类信息。

问答(QA)系统是指根据用户查询从预先存储的数据或信息中识别相关答案,并将其呈现给用户的计算机程序。在当代问答系统中,流行的方法是基于标准向量的RAG(4)。基于标准向量的RAG依赖于从源数据库检索向量和生成响应。其优势在于通过利用现有数据提供快速响应。然而,在解决复杂问题时可能不够充分,因为它缺乏推理能力。相比之下,大型语言模型(LLMs)与知识图谱的结合在处理复杂和模糊的问题时提供了更高的灵活性和准确性。语言模型提供强大的自然语言处理能力,而知识图谱贡献丰富的语义信息和关系推理能力。这种结合不仅生成连贯流畅的响应,而且在不确定性面前促进更深入的理解和推理。此外,由于其结构化的知识管理和推理能力,这种方法可以在最少的数据下提供准确的响应,从而在资源利用和效率方面具有优势。

本研究旨在探索大型语言模型在构建中医病例知识图谱以及开发结合大型语言模型与知识图谱的中医病例问答系统中的作用。具体来说,在本研究中,我们将大型语言模型与知识图谱集成在一起,使系统能够理解并处理来自用户的医学查询,并提供基于传统中医病例的答案。该过程包括使用大型语言模型自动识别和提取关键实体,包括症状、病因、治疗原则和药物,从中医病例记录中提取。中医药案例知识图谱的开发涉及四个步骤:模式层构建、知识提取、知识融合以及数据存储与可视化。基于构建的知识图谱,我们整合大型语言模型(LLM)开发了用于中医药案例记录的问答系统。该系统支持基于自然语言的查询知识图谱,为中医药研究领域挖掘和利用中医药案例知识提供了一种有效且实用的方法。

 这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

核心速览

研究背景

  1. 研究问题

    :这篇文章要解决的问题是如何利用现代数据技术改进传统中医(TCM)案例记录的访问和分析。传统中医案例记录包含了丰富的临床经验和理论见解,但由于其内容复杂且非结构化,传统的分析方法效率低下。

  2. 研究难点

    :该问题的研究难点包括:处理大量数据、复杂的信息以及难以高效检索和分析。

  3. 相关工作

    :该问题的研究相关工作包括基于知识图谱的TCM案例记录研究和基于大型语言模型(LLMs)的TCM案例记录研究。已有研究表明,知识图谱可以用于结构化处理和分析TCM案例记录,而LLMs在自然语言理解和生成方面具有显著优势。

研究方法

这篇论文提出了一种结合大型语言模型和知识图谱的方法,用于解决TCM案例记录的检索和分析问题。具体来说,

  1. 模式层构建

    :首先,定义了知识图谱的信息结构和数据模型,包括实体类型和关系类型。参考了《中医信息学语义网络框架》中的语义类型和语义关系。

  2. 知识提取

    :使用LLMs自动识别命名实体及其关系。命名实体识别(NER)是关键步骤,目标是自动识别和分类文本中具有特定意义的实体。关系提取则是识别和提取文本中指定的实体之间的关系。

  3. 知识融合

    :对提取的实体进行标准化处理,消除个性化表达中的差异。采用LLMs辅助的手动校对方法,确保术语的一致性和准确性。

  4. 数据存储和可视化:将知识以三元组的形式存储在Neo4j图数据库中,便于查询和可视化。

实验设计

  1. 数据收集

    :主要数据来源是王仲奇医师的《医学案例》。经过筛选,共包含679个案例,涵盖41种不同的疾病。

  2. 实验设计

    :实验包括五个阶段:模式层构建、知识提取、知识融合和数据存储与可视化。使用五个代表模型(GPT-3.5-Turbo、GLM-3-Turbo、Qwen-Turbo、Spark3.5 Max和Moonshot-V1-8K)进行命名实体识别的评估。

  3. 样本选择

    :从《医学案例》中随机选取200个标注句子,涵盖症状、病因和治疗原则等实体类型。

  4. 参数配置

    :使用GLM-3-Turbo模型进行命名实体识别,采用几例学习策略,邀请两位具有中医背景的研究人员进行手动校对。

结果与分析

  1. 命名实体识别评估:GLM-3-Turbo模型在精度、召回率和F1得分方面表现最佳,分别为0.9462、0.9778和0.9617。

  2. 生成响应评估:使用RAGAS框架进行评估,GPT-3.5-Turbo模型在忠实度、答案相关性和上下文召回率方面得分分别为0.9375、0.9686和0.9500。

  3. 手动评估:SUS评估结果显示,该系统在安全性、可用性和流畅性方面表现优异,安全性得分为2.868,可用性得分为2.848,流畅性得分为2.98。

总体结论

这篇论文提出了一种结合大型语言模型和知识图谱的方法,用于构建TCM案例知识图谱并开发基于TCM案例的问答系统。通过利用LLMs的自然语言处理能力和知识图谱的结构化知识表示,成功实现了对TCM案例记录的自然语言查询。实验结果表明,该方法在提高查询准确性和相关性方面具有显著优势。未来的研究可以扩展数据集并优化查询系统,以应用于更广泛的场景。

论文评价

优点与创新

  1. 数据来源丰富

    :研究使用了王仲奇医师的《医学案例》作为主要数据源,涵盖了41种不同的疾病,数据量大且具有代表性。

  2. 方法创新

    :结合大型语言模型(LLMs)和知识图谱(KGs)的方法,提升了信息检索和生成的准确性和效率。

  3. 系统构建

    :成功开发了基于自然语言输入的TCM病例查询系统,并通过RAGAS框架进行了详细的评估。

  4. 高评估分数

    :在RAGAS评估中,系统在忠实度、答案相关性和上下文召回率方面均取得了高分,分别为0.9375、0.9686和0.9500。

  5. 人工评估优异

    :通过SUS评估方法,系统在安全性、可用性和流畅性方面表现出色,显著优于仅依赖LLMs的系统。

  6. 专业知识增强

    :结合知识图谱的LLMs系统在提供专业的中医药健康咨询服务方面表现出色,避免了误导性回答。

不足与反思

  1. 术语多样性挑战

    :TCM术语的多义性和专业性是影响实体识别准确性的主要因素。同一术语在不同上下文中可能有不同含义,增加了实体识别的难度。

  2. 训练数据不足

    :当前LLMs的训练数据偏向现代医学和其他领域,缺乏对TCM特定术语、疾病和治疗的支持。这导致模型在识别TCM术语时准确性有限。

  3. 查询失败问题

    :用户查询未能返回相关病例或知识的现象偶尔发生,主要原因是系统无法准确识别用户查询中的实体。未来研究可以通过微调LLMs来提高其在TCM实体识别中的精度。

  4. 数据集单一

    :当前的问答系统主要基于王仲奇的《医学案例》,未来可以考虑纳入不同时期和地区的病例,以丰富内容并提高知识图谱的代表性。

  5. 系统智能化提升

    :未来工作将致力于提升问答系统的智能化水平,探索跨学科研究和应用,以更好地理解用户需求并提供更准确的回答。

关键问题及回答

问题1:在构建TCM案例知识图谱的过程中,如何利用大型语言模型(LLMs)进行命名实体识别(NER)?

  1. 数据准备

    :从《医学案例》中筛选出679个案例,涵盖41种疾病。将这些案例输入到GLM-3-Turbo模型中进行训练和测试。

  2. 几例学习

    :为了克服标注数据资源有限的挑战,采用几例学习策略。具体来说,设计三个典型的示例句子:一个明确描述症状的句子,一个不包含症状信息的句子,以及一个包含症状缓解修饰词的句子。

  3. 手动校对

    :为了确保NER的准确性,邀请两位具有中医背景的研究人员进行手动校对。采用交叉校对方法,每位研究人员的修正由另一位研究人员验证,以确保术语的一致性和准确性。

  4. 结果评估

    :通过精度、召回率和F1得分来评估模型的性能。GLM-3-Turbo模型在精度、召回率和F1得分方面表现最佳,分别为0.9462、0.9778和0.9617。

问题2:在评估生成响应的性能时,使用了哪些指标,这些指标分别反映了系统的哪些方面?

  1. 忠实度(Faithfulness)

    :衡量生成的答案是否基于提供的上下文。通过提取一组陈述并使用LLM评估这些陈述是否可以从事实上下文中推导出来。


2. 答案相关性(Answer Relevance):衡量生成的答案与查询的相关性。LLM生成多个潜在问题,并通过余弦相似度计算每个问题与原始查询的相似度。
3. 上下文召回率(Context Recall):衡量检索到的上下文与标注答案的一致性。这些指标共同反映了系统在生成答案时的准确性、相关性和上下文应用能力。

问题3:SUS评估方法是如何用于评估问答系统的安全性和可用性的?

  1. 安全性评估

    :检查模型生成的答案是否会误导用户,从而带来潜在的健康风险。评估标准包括:答案是否准确、是否有误导性信息、是否避免了不恰当的医疗建议等。

  2. 可用性评估

    :检查内容是否符合专业知识要求。评估标准包括:答案是否专业、是否易于理解、是否提供了有用的信息。

  3. 流畅性评估

    :检查模型的响应是否稳定且自然。评估标准包括:答案的语言是否流畅、是否易于阅读、是否存在语法错误等。

SUS评估方法采用三点评分系统,分数范围为1(不可接受)到3(良好),其中2表示可接受的性能。通过邀请五位具有中医背景的研究人员对20个随机选择的诊断问题进行评分,综合评估问答系统在安全性、可用性和流畅性方面的表现。结果表明,该系统在安全性和可用性方面表现优异,安全性得分为2.868,可用性得分为2.848,流畅性得分为2.98。

  这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

一、大模型风口已至:月薪30K+的AI岗正在批量诞生

2025年大模型应用呈现爆发式增长,根据工信部最新数据:

国内大模型相关岗位缺口达47万

初级工程师平均薪资28K

70%企业存在"能用模型不会调优"的痛点

真实案例:某二本机械专业学员,通过4个月系统学习,成功拿到某AI医疗公司大模型优化岗offer,薪资直接翻3倍!

二、如何学习大模型 AI ?


🔥AI取代的不是人类,而是不会用AI的人!麦肯锡最新报告显示:掌握AI工具的从业者生产效率提升47%,薪资溢价达34%!🚀

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

1️⃣ 提示词工程:把ChatGPT从玩具变成生产工具
2️⃣ RAG系统:让大模型精准输出行业知识
3️⃣ 智能体开发:用AutoGPT打造24小时数字员工

📦熬了三个大夜整理的《AI进化工具包》送你:
✔️ 大厂内部LLM落地手册(含58个真实案例)
✔️ 提示词设计模板库(覆盖12大应用场景)
✔️ 私藏学习路径图(0基础到项目实战仅需90天)

 

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

*   大模型 AI 能干什么?
*   大模型是怎样获得「智能」的?
*   用好 AI 的核心心法
*   大模型应用业务架构
*   大模型应用技术架构
*   代码示例:向 GPT-3.5 灌入新知识
*   提示工程的意义和核心思想
*   Prompt 典型构成
*   指令调优方法论
*   思维链和思维树
*   Prompt 攻击和防范
*   …

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

*   为什么要做 RAG
*   搭建一个简单的 ChatPDF
*   检索的基础概念
*   什么是向量表示(Embeddings)
*   向量数据库与向量检索
*   基于向量检索的 RAG
*   搭建 RAG 系统的扩展知识
*   混合检索与 RAG-Fusion 简介
*   向量模型本地部署
*   …

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

*   为什么要做 RAG
*   什么是模型
*   什么是模型训练
*   求解器 & 损失函数简介
*   小实验2:手写一个简单的神经网络并训练它
*   什么是训练/预训练/微调/轻量化微调
*   Transformer结构简介
*   轻量化微调
*   实验数据集的构建
*   …

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

*   硬件选型
*   带你了解全球大模型
*   使用国产大模型服务
*   搭建 OpenAI 代理
*   热身:基于阿里云 PAI 部署 Stable Diffusion
*   在本地计算机运行大模型
*   大模型的私有化部署
*   基于 vLLM 部署大模型
*   案例:如何优雅地在阿里云私有部署开源大模型
*   部署一套开源 LLM 项目
*   内容安全
*   互联网信息服务算法备案
*   …

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐