翻译:MoRSE: Bridging the Gap in Cybersecurity Expertise with Retrieval Augmented Generation
检索器是一种识别并从知识库中检索相关信息或文档的组件。这一过程对于提供必要的上下文和内容至关重要,LLM 利用这些信息生成准确且有依据的答案 [35], [37]。知识库是一个存储信息的仓库,检索器从中查找相关数据或文档。这是系统检索上下文相关内容的基础,对于生成有依据且准确的答案至关重要 [38]。嵌入向量是文本的数值表示形式,为术语分配低维空间。在此背景下,语义相似的术语的嵌入向量表现出接近性
MoRSE:利用检索增强生成技术弥合网络安全专业知识的鸿沟
MoRSE: Bridging the Gap in Cybersecurity Expertise with Retrieval Augmented Generation
![![[Pasted image 20250326120705.png]]](https://i-blog.csdnimg.cn/direct/aa40156f7eaf48c7b6f6d70897137811.png)
摘要
在本文中,我们介绍了 MoRSE(Mixture of RAGs Security Experts),这是首个专为网络安全设计的 AI 聊天机器人。MoRSE 旨在提供全面且完整的网络安全知识。
MoRSE 使用两个 RAG(检索增强生成,Retrieval Augmented Generation)系统,这些系统旨在从多维度的网络安全上下文中检索和组织信息。MoRSE 不同于传统的 RAG 系统,它通过使用并行检索器来协同工作,以不同格式和结构检索语义相关的数据。与依赖参数化知识库的传统大型语言模型(LLMs)不同,MoRSE 从非参数化知识库中检索相关文档以响应用户查询。随后,MoRSE 利用这些信息生成准确的答案。此外,MoRSE 可以从实时更新的知识库中获益,从而在无需重新训练的情况下实现持续的知识扩充。
我们评估了 MoRSE 相较于其他最先进的 LLMs 的效果,并针对 600 个网络安全特定问题对系统进行了测试。实验评估表明,与 GPT-4 和 Mixtral 7x8 等已知解决方案相比,答案的相关性和正确性提升了超过 10%。
1 引言
新型网络威胁的频率和复杂性不断增加,使得网络安全成为各领域的关键优先事项。仅在过去三年中,数据泄露事件就增加了 15% [1]。近年来,与网络安全相关的信息量激增,为减轻风险和改进网络安全措施提供了重要资源以应对这些威胁。然而,信息的快速扩散导致了杂乱且常常是非结构化的数据环境,使专业人员难以从中提取可操作的见解 [1], [2]。事实上,及时、准确且全面地了解漏洞、攻击手段和防御策略至关重要,因为此类信息的及时性可能对网络安全决策产生重大影响 [3], [4]。近年来,大型语言模型(LLMs)已成为在包括网络安全在内的各个领域综合海量信息的重要工具 [5]。然而,在技术主题上,其可靠性存在差异,不准确性可能会带来严重后果 [6], [7], [8], [9]。LLMs 可能会产生“幻觉”式响应,即生成不真实或不可靠的答案,尤其是在面对动态且不断演变的网络威胁时表现尤为挣扎 [10], [11], [12]。这一问题在代码生成任务中尤为明显,LLMs 往往无法为复杂查询生成可运行的代码 [13]。具体而言,当模型不知道正确答案时,幻觉现象不可避免(认知层面 [14])。这种情况可能发生在模型缺乏足够的训练数据或容量有限的情况下。例如,针对问题“什么是 CVE-2017-5162?”的回答中,示例 1(真实情况)和示例 2(GPT-4 的回答)展示了 GPT-4 无法提供正确答案的情况。
示例 1:真实情况
CVE: CVE-2017-5162
描述:BINOM3 通用多功能电能质量表被发现存在一个问题。远程服务缺乏身份验证,导致应用设置和配置被访问。![![[Pasted image 20250326120924.png]]](https://i-blog.csdnimg.cn/direct/e05d23d200c34edfacc6dacf4718d6bf.png)
示例 2:GPT-4 0125-Preview 回应
CVE: CVE-2017-5162
描述:CVE-2017-5162 是与 Broadcom Wi-Fi 芯片组相关的漏洞。它是 BroadPwn 攻击的一部分。BroadPwn 是一个关键安全漏洞,允许远程攻击者通过空中方式在无需用户交互的情况下入侵易受攻击的设备。![![[Pasted image 20250326120931.png]]](https://i-blog.csdnimg.cn/direct/6529b7203783444db46fdd68c5f8e9d0.png)
为了克服这些限制,必须将持续学习机制构建到 LLMs 中,使其能够动态更新知识库以获取最新信息 [15]。尽管重新训练可能耗时,但使用新信息进行更新对于保持 LLM 响应的相关性至关重要 [16], [17]。因此,企业正在迅速发现检索增强生成(Retrieval Augmented Generation, RAG)聊天机器人的价值。尽管 RAG 系统在网络安全领域取得了显著进展,但研究人员和从业者仍缺乏能够统一多样化网络安全数据的综合模型以及实时动态更新系统,而这些对于应对不断演变的网络威胁至关重要。事实上,有效分析威胁、漏洞和攻击手段需要深入了解单个实体及其更广泛的交互关系。
a) 贡献:
本文介绍了 MoRSE(Mixture of RAGs Security Experts),一种专为网络安全领域的问答任务开发的全新框架。与其他聊天机器人不同,MoRSE 是首个旨在全面覆盖网络安全知识的 RAG 框架。为实现这一目标,MoRSE 使用了两个级联的 RAG 系统。这两个 RAG 将流程分为两个不同阶段:由多个检索器管理的信息检索阶段,以及由大型语言模型驱动的答案生成阶段。
第一个 RAG 称为 结构化 RAG,包含专门用于快速检索任务的检索器,它们从预处理的结构化数据中检索信息。第二个 RAG 称为 非结构化 RAG,由于其更高的复杂性,速度较慢,但能够检索更多原始形式的数据。只有在第一个 RAG 未能找到与特定查询相关的文档时,才会激活第二个 RAG。每个检索器专注于网络安全的特定领域,并从关键资源(如 MITRE2、CVE 存储库3、Metasploit4 和 ExploitDB5)收集数据。我们的系统名称 MoRSE 实际上受到混合专家(Mixture of Experts, MoE)范式的启发 [18],反映了各个检索器的专业技能。此外,MoRSE 通过其实时更新的检索器知识库接收新知识,从而实现知识的持续扩展。事实上,像 RAG 这样的非参数化存储模型的一个关键优势是能够在测试时更新知识。相比之下,纯参数化模型需要重新训练整个模型,这既耗时又耗费资源。
我们使用了一套包含 600 个网络安全问题的综合测试集,其中包括 150 个通用网络安全问题、150 个多跳(MultiHop,即涉及多个文档中不同实体的问题)网络安全问题,以及 300 个关于漏洞的 CVE 问题,对 MoRSE 以及其他知名商业 LLM(如 GPT-46、GEMINI7、MIXTRAL [19] 和 HACKERGPT8)进行了评估。这些问题根据钻石模型 [20] 分类,我们用此模型创建了代表网络安全实际需求的问题。两位专家对问题的真实情况进行了验证,Cohen’s Kappa [21], [22] 指数为 0.82(满分 1 分),表明两位专家的一致性较高。
对比分析显示,MoRSE 在处理网络安全查询时表现出色。在答案的相关性和正确性方面 [23],MoRSE 在通用问题上的表现比其他模型高出 15%,在多跳问题和 CVE 问题上的表现高出 10%。在准确性方面,MoRSE 在 CVE 问题上的表现比 GPT-4 高出 50%,这证明了其在专业领域的有效性。我们使用 LLM 作为评判方法 [24] 对这些结果进行了验证,该方法为每个模型生成 Elo 评分,并确认了 MoRSE 相较于所有竞争对手的领先地位。
本研究的主要贡献可以总结如下:
- 我们介绍了 MoRSE,这是一个开源框架 [9],首次尝试整合两个 RAG 系统以处理多维网络安全上下文。该架构能够独特地综合不同的数据源,提升安全洞察的深度和相关性。
- 我们引入了一个三部分评估测试套件,用于衡量 RAG 系统与 LLM 结合的相关性、相似性和正确性。我们还通过基于 LLM 作为评判方法的两套额外测试进一步验证了这些结果。据我们所知,这是首次提出此类贡献。
- 我们展示了 MoRSE 如何利用其独特的实时网络安全关键词检测能力,将答案的正确性提高 10%,解决了对及时且准确的安全分析的关键需求。
- MoRSE 不同于传统的 RAG 系统,它使用并行检索器协同工作,以不同格式和结构检索语义相关信息。这一点在网络安全领域尤为重要,因为针对特定威胁通常存在多种数据类型(如攻击代码、TTP 描述、CVE 和白皮书),但这些数据之间很少相互关联。MoRSE 利用这些并行检索器和 LLM 整合相关信息,为查询提供全面的答案。
b) 组织结构:
本文其余部分的结构如下:第 II 节讨论了 LLM 和 RAG 的背景信息;第 III 节描述了 MoRSE 的架构;第 IV 节介绍了用于评估 MoRSE 性能的实验,包括与已知商业模型的对比分析;第 V 节概述了相关研究工作,涵盖各种网络安全工具,如知识图谱、实体提取工具、聊天机器人和网络威胁情报(CTI);第 VI 节提出了结论和未来研究方向。
2 背景
本节概述了理解 MoRSE 架构所需的基本概念。
2.1 大型语言模型
大型语言模型(LLMs)在自然语言处理(NLP)领域代表了一项重大进步,其基础是 Transformer 模型 [25]。这些模型通过训练大量文本数据集,能够根据输入提示生成连贯且上下文相关的文本。LLMs 的能力不仅限于文本生成,还包括语言翻译、摘要生成、问答等任务。GPT [26] 和 BERT [27] 等模型的引入展示了 LLM 在无监督和双向训练中彻底改变语言理解和生成的潜力 [26], [28]。随着 GPT-3 [29] 的发展,这些模型的可扩展性达到了新的高度,表明它们无需特定任务训练即可执行广泛的 NLP 任务。
尽管具有诸多优势,LLMs 仍面临一些挑战。伦理问题,如偏见和错误信息的传播,是一个主要关注点 [30]。此外,训练和运行这些计算密集型模型对环境的影响引发了对其可持续性的质疑 [31]。为克服这些挑战,研究人员正在探索更高效的训练方法以及能够以更高准确性生成文本并减少偏见的模型 [32]。
2.2 检索增强生成
检索增强生成(Retrieval-Augmented Generation, RAG)将传统语言模型与外部数据库相结合,以改进自然语言处理(NLP)任务 [33], [34], [35]。RAG 模型使用检索器从知识库中检索相关信息,并使用生成器基于检索到的信息生成答案。这种方法提高了准确性和相关性,尤其是在特定领域的查询中表现突出 [36], [16]。RAG 的优势在于其能够在无需重新训练的情况下更新知识库,并为特定任务(如网络安全)定制组件 [33], [34]。然而,RAG 在延迟和扩展性方面存在挑战,特别是在处理并发查询时 [33]。尽管存在这些限制,RAG 仍然是从聊天机器人到内容创作等多种 NLP 应用的多功能工具。当前的研究重点在于优化检索机制和计算能力 [36], [16]。
2.3 定义
以下是一些将在本文其余部分使用的定义:
- 检索器 是一种识别并从知识库中检索相关信息或文档的组件。这一过程对于提供必要的上下文和内容至关重要,LLM 利用这些信息生成准确且有依据的答案 [35], [37]。
- 知识库 是一个存储信息的仓库,检索器从中查找相关数据或文档。这是系统检索上下文相关内容的基础,对于生成有依据且准确的答案至关重要 [38]。
- 嵌入向量 是文本的数值表示形式,为术语分配低维空间。在此背景下,语义相似的术语的嵌入向量表现出接近性,从而封装语义含义。这有助于在查询和知识库之间进行比较 [39]。
- 上下文 指系统检索的相关信息或数据,围绕并解释特定查询。模型需要这些上下文信息来生成精确、全面且直接与知识库内容相关联的答案 [40]。
- 提示 是由检索到的上下文创建的结构化输入,随后被输入生成模型。该提示指导模型生成连贯且上下文相关的响应,直接回应用户请求 [41]。
- 语义相似性 评估用户查询内容与知识库中的信息之间的匹配程度,注重意义而非逐字匹配。这种评估确保检索数据的相关性和准确性,并支持生成模型创建适当的答案。在 MoRSE 中,我们使用余弦相似性 [42] 来衡量嵌入向量的接近度,因为它与人类判断高度相关 [43]。
- 多跳查询 被定义为需要对多个相互关联的数据进行间接推理的信息请求。这类查询通常出现在复杂的问答任务中,单个证据不足以解决问题,系统必须跨不同的数据点或文档整合信息以生成响应。
3 MoRSE 架构
![![[Pasted image 20250326121106.png]]](https://i-blog.csdnimg.cn/direct/e42c2425efb2414e816134222fded3ce.png)
本节详细描述了 MoRSE 系统的结构,解释了各个组件的功能以及它们如何交互以处理请求并生成响应。我们使用 Langchain 框架 [10] 开发了 MoRSE 架构。表 I 包含了本文解释中使用的符号说明,以帮助理解以下讨论。前两个符号(α)和(β)是嵌入模型,而后两个符号(γ)和(θ)则是 Transformer 模型。
3.1 MoRSE 概述
![![[Pasted image 20250326121118.png]]](https://i-blog.csdnimg.cn/direct/9a592e294dec4281b0424997f11a5362.png)
如图 1 所示,MoRSE 由两个主要组件构成:图形用户界面(GUI)和 MoRSE 核心。GUI 通过允许用户输入查询并以结构化方式显示答案来实现与用户的交互 [11]。MoRSE 核心由三个关键组件组成,这些组件依次管理用户查询并构建答案:
- 查询处理模块:该模块对用户查询进行预处理,专注于多跳查询和复杂问题的管理,尤其是在通用漏洞披露(CVEs)和通用弱点枚举(CWEs)的上下文中。
- 结构化 RAG:两个 RAG 中的第一个由检索器组成,这些检索器从预处理的结构化数据中检索信息。预处理阶段涉及将知识库中的文本块(如学术论文和网络安全网站的内容)转换为明确定义的结构。这些结构设计用于包含生成的问题和上下文化的实体描述,从而便于精准检索与用户查询相关的信息。
- 非结构化 RAG:如果结构化 RAG 无法找到合适的答案,则使用此 RAG。它在未加工的原始文本中搜索信息,这些文本属于其知识库的一部分。访问非结构化数据允许以原始形式探索数据,而不受预处理限制的影响,从而提供更广泛的搜索选项,但响应时间较长。这种类型使得可以以原始形式探索数据,不受预处理限制的影响。RAG 将针对每个查询的答案组合起来,并将其返回至 GUI 进行结构化可视化。接下来我们将详细介绍 MoRSE 核心的组件。
3.2 MoRSE 核心
a) MoRSE 核心工作流程
![![[Pasted image 20250326121143.png]]](https://i-blog.csdnimg.cn/direct/4be0993dc6e44e67b7ce423d0e79aac5.png)
图 2 展示了 MoRSE 核心流程的第一阶段,从查询处理模型开始。该模块将原始查询 x 转换为优化版本 x∗(参见 3-C 小节)。首先,x∗ 被传递到结构化 RAG 模块进行处理。结构化 RAG 路径,记为 S,以结构化检索器开始,专注于高精度和快速响应,以高效处理大多数查询。其主要功能 S(x∗) 是识别和检索与查询相关的信息。当被激活时,结构化检索过程(通过 S(x∗) 执行)从预定义的知识库中为查询 x∗ 分配一组可能相关的文档。特别是,D = top-k(S(x∗)) 表示根据相似度评分选择的 S 认为与查询最相关的前 k 个文档。如果 D 非空(|D| > 0),这意味着找到了相关上下文,工作流程将继续使用此上下文进入下一阶段,其中检索到的信息(D)被包装在一个提示中,供 LLM 使用以生成响应。
如果结构化检索器未能生成相关文档(|D| = 0),工作流程将转移到非结构化路径,并调用非结构化检索器,记为 U。在此阶段,E = top-k(U(x∗)) 表示由 U 检索的一组文档,这些文档旨在处理结构化数据模式无法涵盖的复杂查询。在两种方式之一成功检索到相关信息后(|D| > 0 表示结构化检索,或 |E| > 0 表示非结构化检索),Wrapper 模块将整合获取的上下文并生成一个供大型语言模型(LLM)使用的提示。然后,LLM 执行答案生成,创建对用户问题的详细回答。
b) RAG 架构
![![[Pasted image 20250326121152.png]]](https://i-blog.csdnimg.cn/direct/de90e91164064503a7ee314f0d548b3c.png)
MoRSE 系统的 RAG 架构(用于结构化 RAG(3-D)和非结构化 RAG(3-E))遵循图 3 所示的相同底层逻辑。该架构分为两部分:
- 检索部分:由并行检索器组成,用于收集与查询相关的信息。
- 生成部分:大型语言模型(LLM)利用提示中提供的上下文生成响应。
在检索阶段之后,收集到的信息(info 1 到 info N)被合并为一个上下文,并与用户查询一起包装在一个提示中,供 LLM 生成答案。该架构的逻辑在算法 1 中形式化。
![![[Pasted image 20250326121229.png]]](https://i-blog.csdnimg.cn/direct/b1c98c9d2f3742f7bd6dc8d04df5cd6d.png)
3.3 查询处理
此组件通过管理复杂查询类型和丰富上下文来提升 MoRSE 系统的智能性。以下是该组件的具体功能和构成:
1) 功能:
- 多跳问题处理:处理涉及多个相关实体的查询,使系统能够处理和回答复杂的多跳问题。现有的检索增强生成系统由于设计限制和缺乏针对此类查询的专用基准数据集而难以处理多跳查询 [48], [49]。
- 上下文丰富:从每个已识别实体生成额外问题,扩展和丰富生成有依据答案所需的上下文。
- 解决 CVE-CWE 难题:有效处理与通用漏洞披露(CVE)和通用弱点枚举(CWE)相关的查询,这些问题因技术复杂性而对生成模型具有挑战性 [50], [51]。
2) 组件:
- 用户查询:当用户通过图形用户界面提交查询时启动流程。
- CVE-CWE 关键词提取:在接收到查询时提取与 CVE 和 CWE 相关的关键词。
- 获取 CVE 描述:检索 CVE 的详细描述,包括关于漏洞、受影响软件和发现者的信息。
- 获取 CWE 描述:检索 CWE 的描述,提供有关软件漏洞类型、潜在影响和缓解策略的信息。
- 实体提取器:使用 Haystack 框架 [12] 和 θ 模型从用户查询中识别和提取相关实体(人或概念),提高系统处理多跳查询的能力。
完整的流程在算法 2 中概述,展示了 MoRSE 系统内查询处理的机制。![![[Pasted image 20250326121247.png]]](https://i-blog.csdnimg.cn/direct/2ab5f474f3214de08bb3e0631c671532.png)
3.4 结构化 RAG
![![[Pasted image 20250326121254.png]]](https://i-blog.csdnimg.cn/direct/8197239c7efd4fd4a3d2386219fe7cdd.png)
如图 4 所示,结构化 RAG 模块在查询处理后工作,将优化后的查询转发给七个并行检索器(称为结构化检索器),每个检索器专注于特定的网络安全主题。对于给定的查询,如果知识库中的信息与查询的相似度高于预定义阈值,则将其插入上下文中。为了为每个检索器确定阈值,我们对一系列测试查询中前 50 个结果的得分进行了分析,并通过评估得分分布 [13] 确定了阈值。特别是,我们使用测试分布的中位数作为 MITRE 检索器和恶意软件检索器的阈值,因为这些检索器通常检索较短的文本。对于问题检索系统、CWE 检索器、Metasploit 检索器和实体检索器,我们选择测试分布的第三四分位数(Q3)作为阈值,因为它们通常检索较长的文本。ExploitDB 检索器不设阈值,而是使用 TF-IDF 算法 [52]。为减轻嵌入偏差 [53],我们为检索器使用了两种不同的嵌入模型,(α) 和 (β)。以下段落详细描述了每个检索器的功能。
a) MITRE 检索器:
该检索器的知识库来自 MITRE 公司 [14] 的网站,其结构为包含两类主要节点的图数据库:恶意软件和攻击技术。数据库中的每个恶意软件节点包含名称和 MITRE 描述。我们通过收集和分析 MITRE 网站上的技术相关链接创建技术节点,其中包括技术名称和描述。该检索器使用嵌入模型 (α)。为确保精确匹配,系统仅评估相似度得分超过 0.7 的恶意软件,这对应于测试分布的中位数。
b) Metasploit 检索器:
我们开发了 Metasploit 检索器,使其能够有效集成到 Metasploit 框架中。其知识库包含超过 4900 个网络安全元素,包括漏洞利用代码、编码器、有效载荷和各种模块。为提高检索速度,我们仅索引代码的关键部分,例如代码描述和漏洞利用信息。它使用相似度值为 0.75(测试分布的 Q3)的语义搜索与 (α) 嵌入模型结合,并辅以基于 TF-IDF 算法 [52] 的关键词搜索。
c) ExploitDB 检索器:
该检索器的知识库由 ExploitDB 框架中的漏洞利用代码组成。这些代码通常缺乏描述,因此我们使用基于 TF-IDF 算法 [52] 的关键词搜索,重点关注重要数据(如 CVE 标识符和作者姓名),这些信息通常出现在脚本开头。为提高检索速度,我们仅索引每个脚本的前 600 个字符,因为这些信息通常包含在代码的前几部分中。
d) 问题检索系统:
该系统充当一个知识库,包含从原始文档片段中提取的问题,以便更好地选择文档中最重要的部分及其包含的解释。用户查询与这些问题进行比较,如果匹配,则提取包含匹配问题的文档片段。在预处理阶段,文档被分割为 2000 字符的片段。模型 (γ) 为每个片段生成约七个问题,并使用 Mistral7B-Instruct-v0.2 [54] 进行优化以实现更好的对齐。系统使用 (β) 嵌入模型,并按顺序部署四个检索器,每个检索器选择十个最相关的文档。结果被合并,通过相似度阈值 0.6(测试分布的 Q3)过滤,并根据“迷失中间原则” [55] 重新排序,将关键信息置于上下文的开头或结尾。针对同一文档片段的冗余问题被移除以简化上下文。
e) 实体检索器:
该检索器包含从文档片段中提取的实体及其上下文描述。在预处理阶段,我们将文档分割为 500 字的片段。这种分割使模型 (θ) 能够更精确地识别和分类相关实体。每个实体的上下文描述使用 mistralai/Mistral-7BInstruct-v0.2 模型生成,并通过 (β) 嵌入模型转换为可搜索格式,检索时使用相似度阈值 0.5(测试分布的 Q3)。
f) 恶意软件检索器:
该检索器包含来自 GitHub 页面的 1000 多个恶意软件源代码。恶意软件检索器使用 (α) 嵌入模型进行语义搜索,并设置相似度阈值为 0.7(测试分布的中位数),以匹配查询与恶意软件名称。如果匹配成功,所有相关文件将显示在图形界面上。
g) CWE 检索器:
CWE 检索器使用 (α) 嵌入模型的语义搜索,将用户查询与 CWE 描述匹配(详见第 III-C 节)。其操作阈值为 0.7(测试分布的 Q3),展示 10 个最相关的 CWE。当查询与某个 CWE 高度匹配时,检索器会提供详细信息,包括代码示例。
h) 上下文构建:
在为提示创建最终上下文时,来自两个主要来源(代码片段和上下文信息)的输入被组织起来,以确保在生成阶段的可见性和影响力:
- 代码片段:根据“迷失中间原则” [55],来自 Metasploit 和 ExploitDB 的代码片段优先放置在提示的开头,以便立即可见。
- 上下文信息:为确保向 LLM 提供必要且简洁的信息,来自 MITRE、CWE 和实体检索器的内容被放置在提示的末尾。而具有重新排序功能的问题检索器的更全面输出(遵循“迷失中间原则” [55])则被放置在中间。
3.5 非结构化 RAG
![![[Pasted image 20250326121322.png]]](https://i-blog.csdnimg.cn/direct/3d78adbf6c134eb7b4bab2422e493180.png)
如图 5 所示,非结构化 RAG 在 MoRSE 系统中扮演重要角色,处理结构化 RAG 无法解决的网络安全查询。该模块利用称为缓冲区的检索器,将文档存储为 2000 字符的片段,同时保持原始信息的完整性。所有缓冲区均作为混合检索器运行,结合语义搜索和基于 BM25 算法 [56] 的关键词搜索。与其他配置不同,这些检索器没有固定的语义搜索阈值;相反,它们被配置为返回前五个文档,而不考虑相似度得分。这一决策使得后续的上下文转换过程可以应用语义阈值,从而确保检索过程的灵活性和全面性。
a) 缓冲区分类:
缓冲区根据其处理的数据类型进行分类,分为四种类型:
- 文本缓冲区:处理来自网站和博客的内容,包含五个独立缓冲区,每个缓冲区使用 (α) 嵌入模型进行数据分析。
- Metasploit 缓冲区:包含五个缓冲区,涵盖整个 Metasploit 框架的代码,使用 (α) 嵌入模型进行高效处理。
- 代码缓冲区:单一缓冲区处理来自 Exploit DB 的代码片段,同样使用 (α) 嵌入模型进行最佳分析。
- 论文缓冲区:学术论文由三个缓冲区管理,这些缓冲区使用 (β) 嵌入模型以更好地处理学术内容中常见的复杂语言 [57]。这一选择基于嵌入模型的更高性能值,表明其具有更好的检索能力。
上下文转换过程:
上下文转换过程通过四个阶段细化缓冲区中的信息:
- 分割阶段:文档被分割为 300 字符的片段,以提高相关性选择并减少大块数据带来的噪声。
- 冗余内容移除:在此阶段,使用 β 嵌入模型移除分割片段中的冗余内容,以提高输出的清晰度和唯一性。
- 过滤阶段:使用 (β) 嵌入模型选择相关数据片段,设置阈值为 0.6(测试分布的 Q3),以确保知识库的相关性。
- 重新排序阶段:最后,根据“迷失中间原则”对数据进行排序,以优先显示响应中的重要信息。
4 实验与评估
在网络安全领域,评估检索增强生成(Retrieval Augmented Generation, RAG)系统和大型语言模型(LLM)尤其具有挑战性,因为它们在信息检索和内容生成方面扮演双重角色。缺乏涵盖广泛真实世界操作任务的标准基准,使得对网络安全 LLM 的评估变得复杂 [23], [58], [59]。关键评估挑战包括验证检索信息的准确性、LLM 对其使用的有效性以及生成内容的整体质量。专注于语言理解的传统方法可能无法充分反映现实世界的性能 [60]。为有效应对这些挑战,我们为 MoRSE 开发了三部分评估策略,并将其性能与其他已知的 LLM 和 RAG 系统在回答网络安全问题时的表现进行了比较。MoRSE 与 GPT-4 0125-Preview、MIXTRAL、HACKERGPT 和 GEMINI 1.0 Pro 等竞争模型进行了对比。三种不同的评估测试套件如下:
- 使用 RAGAS 框架 [23],我们通过一组指标将 MoRSE 的响应与真实情况进行比较。
- 使用 Zheng 等人提出的方法 [24],我们通过参考引导的两两比较计算了 MoRSE 和竞争模型的 Elo 评分,使用 GPT-4 0125-Preview 作为评判标准。这提供了相对性能的量化指标。根据 Zheng 等人 [24],GPT-4 0125-Preview 还根据与真实参考的比较对响应进行评分,满分为 5 分。
我们使用了三种不同类型的网络安全问题进行评估。第一类是通用网络安全问题,包含 150 个简单的单行问题,涵盖广泛的网络安全主题。第二类是多跳网络安全问题,包含 150 个复杂的查询,需要深入的多层次理解。第三类聚焦于 300 个通用漏洞披露(CVE)问题,涉及特定的安全漏洞。这些问题基于钻石模型 [20] 分类,用于创建代表真实网络安全需求的问题,样本量根据标准方法统计选择 [15]。两名分别具有 12 年和 2 年经验的专家验证了真实情况。我们使用 Cohen’s Kappa [21], [22] 作为衡量两位专家一致性程度的指标。他们根据问题的上下文将答案分类为[正确]、[错误]或[部分正确]。专家之间的一致性较高(Cohen’s Kappa = 0.82),表明几乎完全一致 [61]。对于所有三个评估测试套件,我们使用 mistralai/Mistral-7B-Instruct-v0.2 模型生成 MoRSE 的答案,运行在 NVIDIA A100 80GB GPU 上。
4.1 第一套测试:基于 RAGAS 框架的真实情况评估
使用 RAGAS 框架 [23],我们重点关注三个指标:答案相关性、答案相似性和答案正确性。为计算这些指标,我们使用 GPT-4 0125-Preview 作为所有计算的基础模型。答案相关性(如公式 1 所示)衡量生成答案与给定提示的相关性。通过从模型答案中生成相关问题,并使用余弦相似度将其嵌入与原始问题进行比较来计算:
Answer Relevance=1N∑i=1Ncos(Eig,Eo),(1) \text{Answer Relevance} = \frac{1}{N} \sum_{i=1}^{N} \cos(E_i^g, E_o), \quad (1) Answer Relevance=N1i=1∑Ncos(Eig,Eo),(1)
其中 EigE_i^gEig 和 EoE_oEo 分别是生成问题和原始问题的 β 嵌入,N=3N=3N=3 是生成问题的数量。
答案相似性(如公式 2 所示)评估模型生成响应与预定义正确答案之间的语义一致性,计算如下:
Answer Similarity=Vground truth⋅Vgenerated∥Vground truth∥∥Vgenerated∥,(2) \text{Answer Similarity} = \frac{V_{\text{ground truth}} \cdot V_{\text{generated}}}{\|V_{\text{ground truth}}\| \|V_{\text{generated}}\|}, \quad (2) Answer Similarity=∥Vground truth∥∥Vgenerated∥Vground truth⋅Vgenerated,(2)
其中 Vground truthV_{\text{ground truth}}Vground truth 和 VgeneratedV_{\text{generated}}Vgenerated 分别表示真实答案和生成答案的向量表示。
答案正确性(如公式 3 和 4 所示)评估生成答案与真实答案的事实准确性。它结合了语义相似性和事实正确性:
AC=wFC⋅FC+wSS⋅SS,(3) AC = w_{FC} \cdot FC + w_{SS} \cdot SS, \quad (3) AC=wFC⋅FC+wSS⋅SS,(3)
其中 FCFCFC 是事实正确性,使用 F1 分数量化,考虑了真阳性 (TPTPTP)、假阳性 (FPFPFP) 和假阴性 (FNFNFN):
FC=∣TP∣∣TP∣+0.5⋅(∣FP∣+∣FN∣),(4) FC = \frac{|TP|}{|TP| + 0.5 \cdot (|FP| + |FN|)}, \quad (4) FC=∣TP∣+0.5⋅(∣FP∣+∣FN∣)∣TP∣,(4)
SSSSSS 是生成答案与真实答案之间的语义相似性。wFCw_{FC}wFC 和 wSSw_{SS}wSS 分别是分配给 FCFCFC 和 SSSSSS 的权重,分别为 0.75 和 0.25。
为了计算 TPTPTP、FPFPFP 和 FNFNFN,RAGAS 框架使用以下提示指令:从给定问题和真实答案中提取以下内容:“TP”:同时出现在答案和真实情况中的陈述;“FP”:出现在答案中但未在真实情况中找到的陈述;“FN”:在真实情况中找到但在答案中遗漏的相关陈述。
这三个指标中的每一个都需要一个嵌入模型来计算句子之间的距离,以及一个大型语言模型(LLM)来评估答案的相关性和正确性。我们选择了 GPT-4 0125-Preview 作为 LLM,(β) 作为嵌入模型。
a) 通用和多跳问题的性能分析:
![![[Pasted image 20250326121353.png]]](https://i-blog.csdnimg.cn/direct/de0a06f9a38649669b611750f915834d.png)
表 II 显示了 MoRSE 和其他模型在通用网络安全问题和多跳网络安全问题上的结果。每个模型的指标以均值 (μμμ) 和标准差 (σσσ) 表示,分别反映了平均性能和变异性。
-
通用网络安全问题洞察:在通用网络安全问题中,MoRSE 在所有指标上表现优异,相关性得分为 0.90,相似性得分为 0.95,正确性得分为 0.71,表明答案与查询提示高度一致且具有事实准确性。相比之下,其他模型在一致性和有效性方面表现较低,尤其是在正确性方面。
-
多跳网络安全问题洞察:在评估复杂的多跳网络安全查询时,MoRSE 模型优于竞争对手,证明了其能够回答复杂问题的能力。数据显示,MoRSE 在所有指标上得分持续较高,相关性和相似性平均得分为 0.93,正确性得分为 0.70。其他模型表现出显著的性能下降,特别是在正确性方面,GPT-4 0125-Preview 的平均得分为 0.62,MIXTRAL 为 0.61,表明其处理多跳问题的能力较低。
b) CVE 问题的性能分析:
![![[Pasted image 20250326121407.png]]](https://i-blog.csdnimg.cn/direct/8ed1814d08dd485d8339482a9aee4f35.png)
表 III 显示了 MoRSE 和 GPT-4 0125-Preview 在 300 个 CVE 查询中的表现。我们选择 GPT-4 0125-Preview 是因为它在通用和多跳问题中表现最佳(见表 II)。我们专注于答案相似性和正确性指标,因为它们严格基于真实情况,而答案相关性并不衡量事实性。此外,我们计算了准确率指标,通过检查模型是否正确识别了给定查询中的漏洞来计算。
关于正确性,MoRSE 模型得分为 0.64,因为其响应通常包含对相关攻击代码的解释,而真实情况仅描述漏洞细节。这些额外信息虽然有用,但由于偏离了预期响应,降低了正确性得分。GPT-4 0125-Preview 在这一领域特定挑战中落后。MoRSE 的准确率达到 84%,超过了 GPT-4 0125-Preview 模型的 34%。我们的比较显示,MoRSE 在准确识别漏洞方面显著优于 GPT-4 0125-Preview。
由于通用和多跳查询不像 CVE 查询那样具有严格的事实数据点(例如特定漏洞的识别),因此我们无法为其计算准确率指标。对于 CVE,准确率很简单:我们检查模型是否识别了正确的漏洞。相比之下,通用和多跳问题通常缺乏如此明确的数据,需要根据多种因素进行评估,具体取决于问题类型。
4.2 检索器影响分析
![![[Pasted image 20250326121515.png]]](https://i-blog.csdnimg.cn/direct/10d5a90773b44cf2b734a040e48d0f4c.png)
为了计算每个检索器对 600 个问题的影响,我们采用了一种系统化的方法。首先,我们收集了为 150 个通用问题、150 个多跳问题和 300 个 CVE 问题生成的所有上下文。然后,我们分析了每个检索器在这些上下文中成功检索相关信息的频率。每个检索器的成功检索频率被计算为各类问题总数的百分比。通过这种方式,我们量化了每个检索器在通用和多跳问题场景中的性能和影响。图 6a、6b 和 6c 显示了不同检索器在每类问题中的影响。
- 通用问题:问题检索系统的影响最大,达到 56.3%,其次是实体检索器,占比 21.7%。其他检索器(如 MITRE、CWE、ExploitDB、Metasploit 和恶意软件检索器)的影响在 6.1% 至 9.0% 之间。
- 多跳问题:问题检索系统对结果的影响显著,贡献率为 35.4%,实体检索器也发挥了重要作用,贡献率为 28.3%。Metasploit 检索器的影响增加至 12%。其他检索器(恶意软件、CWE、ExploitDB 和 MITRE)的影响在 5% 至 7% 之间。
- CVE 问题:如图 6c 所示,ExploitDB 和 Metasploit 检索器的影响最大,分别为 18% 和 31%。其他检索器(恶意软件、CWE、MITRE、实体和问题检索系统)的影响范围在 1% 至 14% 之间。
4.3 第二套测试:以 LLM 为评判标准的参考引导两两比较
提示 1:参考引导两两比较的提示
![![[Pasted image 20250326121427.png]]](https://i-blog.csdnimg.cn/direct/f020a212125e4915b70389b5cbf9f9d3.png)
请作为公正的评判者,评估两个 AI 助手对以下用户问题的回答质量。您的评估应考虑正确性和有用性。您将获得一个参考答案、助手 A 的答案和助手 B 的答案。您的任务是评估哪个助手的答案更好。开始评估时,请先将两个助手的答案与参考答案进行比较。识别并纠正任何错误。避免任何位置偏差,确保答案呈现顺序不会影响您的决策。不要让答案长度影响您的评估。不要偏爱某些助手的名字。尽可能保持客观。在提供解释后,请严格按照以下格式输出最终裁决:“[A]”表示助手 A 更好,“[B]”表示助手 B 更好,“[C]”表示平局。
[用户问题] 在此处插入用户问题。
[参考答案开始] 在此处插入参考答案。
[参考答案结束]
[助手 A 的答案开始] 在此处插入助手 A 的答案。
[助手 A 的答案结束]
[助手 B 的答案开始] 在此处插入助手 B 的答案。
[助手 B 的答案结束]
在我们的评估中,我们使用 GPT-4 0125-Preview 作为评判标准,评估和比较 MoRSE、GPT-4 0125-Preview、MIXTRAL 7X8、GEMINI 1.0 Pro 和 HACKERGPT 的表现。该方法基于 Zheng 等人提出的研究 [24],表明 GPT-4 与人类判断的一致性高达 80%。如提示 1 所示,在给定查询及其对应的参考响应后,我们要求 GPT-4 0125-Preview 在模型 A 和模型 B 的答案中选择最佳答案。在 GPT-4 0125-Preview 完成对竞争模型之间的所有可能对决的评估后(记录于表 IV),我们为每个模型推导出三个不同的指标:Elo 评分、Bootstrap 增强 Elo 评分和最大似然估计(MLE)。![![[Pasted image 20250326121536.png]]](https://i-blog.csdnimg.cn/direct/c0335b61c0e94d589aca1e1f6565ea1c.png)
- Elo 评分:它量化了竞争场景中实体之间的相对技能水平,适用于根据头对头结果评估模型。该方法涉及使用线性更新算法进行初始计算,选择保守的 K 因子以确保评分稳定性,减少近期对抗对评分的影响。公式 5 显示了我们在上下文中使用的 Elo 评分公式:
Rnew=Rold+K×(S−E),(5) R_{\text{new}} = R_{\text{old}} + K \times (S - E), \quad (5) Rnew=Rold+K×(S−E),(5)
其中 RnewR_{\text{new}}Rnew 和 RoldR_{\text{old}}Rold 分别表示新的和旧的 Elo 评分。常数 K=4K=4K=4 控制评分的波动性,SSS 表示实际比赛结果(胜利为 1,平局为 0.5,失败为 0),EEE 是预期结果,按公式 6 计算:
E=11+10Rnew−Rold400.(6) E = \frac{1}{1 + 10^{\frac{R_{\text{new}} - R_{\text{old}}}{400}}}. \quad (6) E=1+10400Rnew−Rold1.(6)
- 最大似然估计(MLE):利用逻辑回归进行 MLE,我们进一步分析了两两比较,推导出每个模型优于另一个模型的概率,从而通过概率洞察丰富了我们的评估范围。用于 MLE 的逻辑回归模型可形式化为公式 7:
logp1−p=β0+β1X1+⋯+βpXp,(7) \log \frac{p}{1-p} = \beta_0 + \beta_1 X_1 + \cdots + \beta_p X_p, \quad (7) log1−pp=β0+β1X1+⋯+βpXp,(7)
其中 ppp 是模型 A 击败模型 B 的概率,XiX_iXi 表示特征向量,指示模型在每次比赛中的参与情况,βi\beta_iβi 是回归学习到的系数,与 Elo 评分相关。计算出的 βi\beta_iβi 被缩放和调整以得出每个模型的最终 Elo 评分。
- Bootstrap 增强 Elo 评分:为解决与战斗排序相关的潜在偏差,我们采用了 Bootstrap 方法,增强了 Elo 评分的稳健性,并促进了置信区间估计,从而实现更可靠的评估。Bootstrap 方法包括:采样战斗、计算 Elo 评分、形成跨轮次的评分分布,并确定置信区间(中位数、2.5% 和 97.5% 百分位数)。
a) 通用网络安全问题的表现:
![![[Pasted image 20250326121551.png]]](https://i-blog.csdnimg.cn/direct/ecc28b75d9934c55aa79e1439013553a.png)
如表 V 所示,MoRSE 以最高的 Elo 评分为 1244 和 MLE Elo 为 1252.43 领跑,表明其在通用网络安全知识方面的卓越表现。其强大的 Bootstrap 评分为 1225.54,置信区间在 1275-1175 之间,显示了结果的一致性。紧随其后的是 GPT-4,Elo 评分为 1083,MLE Elo 为 1107.07,同样表现出可靠的性能。GEMINI 和 MIXTRAL 表现中等,Elo 评分分别为 926 和 885。HACKERGPT 表现最差,Elo 评分最低。
b) 多跳网络安全问题的表现:
如表 V 所示,在多跳查询中,MoRSE 再次表现出色,Elo 评分为 1280,MLE Elo 为 1323.67。其 Bootstrap 评分为 1170.62,置信区间狭窄,表明性能高度稳定。GPT-4 以 Elo 评分为 1157 位居第二,表现具有竞争力。MIXTRAL 尽管在通用问题上的表现较低,但在多跳问题上表现更好,Elo 评分为 921,而 GEMINI 表现不佳,Elo 评分为 907。HACKERGPT 在这一领域仍显示出较低的稳定性。
c) 综合问题洞察:
综合考虑 156 个通用问题和 150 个多跳问题,MoRSE 以 Elo 评分为 1267 和 MLE Elo 为 1294.66 脱颖而出,辅以坚实且可信的 Bootstrap 评分,证明了其稳健性。GPT-4 的表现也较为稳固,Elo 评分超过 1100。GEMINI 和 MIXTRAL 的表现非常相似,Elo 评分在 900 至 950 之间。HACKERGPT 总体表现一致性较低。
4.4 第三套测试:基于最高分参考的五级评判标准,以 LLM 为裁判
提示 2:基于最高分参考的五级评判标准提示
![![[Pasted image 20250326121613.png]]](https://i-blog.csdnimg.cn/direct/ab471df717a4470babf667f2d56967a3.png)
任务描述:给定一个问题、需要评估的回答、一个得分为 5 的参考答案,以及表示评估标准的评分规则。
- 根据给定的评分规则,严格撰写详细反馈,不进行一般性评估。
- 撰写反馈后,给出一个介于 1 到 5 的整数分数。必须参考评分规则。
- 输出格式应如下所示:
“Feedback: {{根据标准撰写反馈}} [RESULT] {{1 到 5 的整数}}” - 请勿生成任何其他开头、结尾或解释。确保输出中包含 [RESULT]。
评分规则:回答是否基于参考答案正确、准确且符合事实?
- 得分 1:回答完全错误、不准确和/或不符合事实。
- 得分 2:回答大部分错误、不准确和/或不符合事实。
- 得分 3:回答部分正确、准确和/或符合事实。
- 得分 4:回答大部分正确、准确且符合事实。
- 得分 5:回答完全正确、准确且符合事实。
问题:[问题]
需要评估的回答:[需要评估的回答]
参考答案(得分为 5):[参考答案]
如提示 2 所示,我们的方法涉及使用 GPT-4 0125-Preview 根据最高分参考为每个模型的答案分配 1 到 5 的分数。这些分数基于与参考答案的比较,参考答案被赋予满分 5 分。评分程序对应于文献 [16] 中描述的方法。![![[Pasted image 20250326121646.png]]](https://i-blog.csdnimg.cn/direct/5412647b5f7040efb716dd34820fd5d2.png)
从表 VI 可以看出,MoRSE 在所有问题类别(通用问题、多跳问题和 CVE 问题)中表现优于其他模型。GPT-4 0125-Preview 紧随其后,作为第二优秀的模型,在所有类别中表现出强大的多功能性,但性能显著低于 MoRSE。其他模型(GEMINI、HACKERGPT 和 MIXTRAL)表现出不同的性能水平,在通用网络安全知识或多跳和 CVE 问题的针对性查询方面,均未达到 MoRSE 或 GPT-4 0125-Preview 的效果。
4.5 MoRSE RAG 检索器的测试用例分析
![![[Pasted image 20250326121703.png]]](https://i-blog.csdnimg.cn/direct/aa488e04935149c9af97c2d8dbcc4f68.png)
本节报告了 MoRSE 系统中结构化和非结构化 RAG 组件的性能评估,如表 VII 所示。我们基于检索器在网络安全领域的专业知识,针对一组定制的 100 个测试问题对其进行了评估,重点关注处理时间效率、密集检索器大小(Size)和文档数量(No. Doc)。我们还通过测试查询和错误率分析评估了结构化检索器的可靠性,并使用置信区间估计未来可靠性。
a) 结构化检索器性能分析:
表 VII 显示了 MoRSE 系统中结构化 RAG 检索器的性能指标。ExploitDB 检索器的 Size 未列出,因为它使用 TF-IDF 进行检索。恶意软件检索器在 GPU 上的平均处理时间为 0.061 秒,在 CPU 上为 0.110 秒。CWE 检索器和 MITRE 检索器的平均处理时间分别为 0.083 和 0.057 秒(GPU),0.108 和 0.13 秒(CPU)。对于 ExploitDB 检索器,平均处理时间为 1.254 秒(GPU)和 2.377 秒(CPU)。Metasploit 检索器在处理 40MB 密集检索器时的平均时间为 0.995 秒(GPU)和 1.367 秒(CPU)。此外,问题检索系统和实体检索器值得注意,因为它们是结构化 RAG 组件中最大的密集检索器,分别为 3.863 GB 和 554 MB。问题检索系统的平均处理时间为 2.536 秒(CPU)和 2.492 秒(GPU)。实体检索器由于其较高的密度,实现了 0.250 秒(GPU)和 0.268 秒(CPU)的中等处理时间。
b) 非结构化 RAG 组件性能分析:
如表 VII 所示,GPU 处理显著提高了性能,尤其是对于处理大数据集的组件。TEXT BUFFER 在切换到 GPU 后性能显著提升,可能是因为其数据量较大(185 MB),这反映在平均时间从 CPU 上的 85.22 秒减少到 GPU 上的 1.789 秒。CODE BUFFER 也受益于 GPU 加速,但程度较小,表明其任务对处理能力的要求较低。对于 METASPLOIT BUFFER,GPU 通过更有效地管理 186 MB 数据集显著提高了效率,减少了平均时间。METASPLOIT BUFFER 的大小与结构化 Metasploit 检索器不同,因为前者包含完整的代码。CONTEXT TRANSFORMATION 由于计算需求最高,显示了 GPU 在处理大量数据方面的优势,这是需要快速数据分析和处理的任务的关键方面,突显了 MoRSE 系统对硬件改进的适应性。非结构化 RAG 组件在 GPU 上运行时性能显著提高,因此优先在 GPU 架构上运行,但仅当结构化 RAG 失败时才启动,以确保非结构化 RAG 的大缓冲区所需的大量内存资源得到利用,同时为生成任务保留足够的内存。
c) 结构化检索器错误率分析:
目标是估算结构化检索器无法找到相关文本数据以响应用户查询的概率,以便在必要时切换到非结构化 RAG 以继续搜索相关信息。为此,我们专注于最终上下文中的“上下文信息”部分(见图 4)。我们将表 VII 中列出的各检索器的错误率相乘,确定了一个集体失败概率约为 0.2569%,等于经验率 (p^\hat{p}p^) 为 0.0026。在评估可靠性时,我们使用了 95% 的置信区间 [62]、经验率、z 值为 1.96 和表 VII 中的错误率(Fail.Rate)。这一分析表明,在测试条件下,最大失败率不超过 0.46%,这证实了系统在处理基于文本的查询时的稳健性。
5 相关工作
我们现在概述了命名实体识别(NER)、知识图谱(KGs)和大型语言模型(LLMs)的最新发展,这些技术推动了更复杂、自动化和自适应的网络安全系统。
5.1 网络安全中的命名实体识别(NER)
在网络安全领域,命名实体识别(NER)取得了显著进展。特别是,BERT 及其全词掩码变体与 BiLSTM-CRF 框架结合使用,在实体识别指标上表现出显著改进 [63]。类似地,通过融合基于规则、基于词典的方法和条件随机场(CRF),RDFCRF 模型显著提升了网络安全领域的实体识别能力 [64]。此外,一种结合深度学习与词典方法的混合模型在识别复杂实体时显著提高了精度和识别率 [65]。Srivastava 等人的研究 [66] 强调了不同词嵌入(如 fastText、GloVe 和 BERT)的效果差异,其中微调的 BERT 嵌入结合前馈网络实现了 0.974 的 F1 分数,突显了模型对特定领域的适应性的重要性。此外,JCLB 模型通过结合对比学习与信念规则库 [67] 展示了通过语义扩展和优化 BRB 参数提高的准确性。Li 等人开发了 NEDetector [68],该工具通过识别网络安全新词以 89.11% 的准确率改进了 NER,优于传统趋势检测工具在 Twitter 等平台上检测威胁的能力。Extractor 将 CTI 报告中的攻击行为提炼为清晰、可操作的见解,并利用溯源图在威胁狩猎中提升网络安全分析的实际效果 [69]。Koloveas 等人 [70] 创建了 inTIME 框架,该框架利用机器学习将网络数据转化为可操作的 CTI,通过统一平台简化情报生命周期的情报收集、分析和共享。同时,Xiong 等人 [71] 基于 MITRE Enterprise ATT&CK 矩阵开发了一种新的威胁建模语言,整合企业安全的关键元素,通过模拟改进防御策略。Husari 等人 [72] 进一步完善了 CTI 分析,通过自动化从非结构化文本中提取威胁行为,利用自然语言处理(NLP)和信息检索(IR)进行语义提取,并将攻击模式与 STIX 2.1 等标准对齐,在评估中实现了显著的精确率和召回率。MoRSE 超越了当前的 NER 技术,提供动态实体识别和响应生成。它实时识别用户查询中的命名实体,并利用这些信息生成精准且上下文化的响应。
5.2 网络安全中的知识图谱(KGs)
知识图谱(KGs)正在从威胁情报到教育等多个方面革新网络安全。Agrawal 等人 [73] 展示了如何从非结构化文本中构建的知识图谱增强网络安全学习,学生反馈表明其理解能力和参与度得到了显著提升。Sewak 等人开发了 CRUSH [74],该工具将大型语言模型(如 GPT-3.5/GPT-4/ChatGPT)与企业知识图谱(EKGs)集成,创建威胁情报图(TIG),在识别恶意脚本时实现高达 99% 的召回率。Li 等人开发了 AttacKG [75],该工具自动从 CTI 报告中提取攻击技术并构建结构化的知识图谱,极大地提高了攻击模式分析的准确性,并支持高级威胁检测工作。Liu 等人 [76] 使用 NLP 将超过 29,000 份网络安全报告转换为 113,543 个可操作的网络威胁情报(CTI)点,通过突出活动触发器来提高分类准确性。Piplay 等人 [77] 描述了一种从行动后报告(AARs)生成网络安全知识图谱(CKGs)的系统,该系统利用“恶意软件实体提取器”和神经网络,通过优化查询响应改进安全分析。Gao 等人 [78] 在图卷积网络中使用异构信息网络(HIN)和元路径方法,展现出由真实数据验证的高度复杂的威胁类型识别能力。Sikos 等人 [79] 讨论了知识图谱如何帮助网络安全威胁情报和自动推理,并强调了其在分析网络数据中的重要性。Ren 等人 [80] 提出了一种针对 APT 攻击映射的知识图谱,结合深度学习与网络防御专业知识。Mitra 等人 [81] 通过添加溯源信息增强了 CKGs,以打击虚假网络安全信息并确保数据可靠性。相比之下,MoRSE 通过提供实时更新和动态调整解决了知识图谱在网络安全中的局限性,而非手动修订 KG。它还提供了实时交互式查询功能,而非常见的静态 KG。此外,MoRSE 提供了更高的定制性和模块化,使其比固定结构的 KG 更具适应性和更易于扩展知识库。
5.3 网络安全领域的 LLMs 和聊天机器人
关于网络安全聊天机器人的研究突出了它们在教育、伦理和监管中的作用。Yoo 等人(2024 年)和 AbuAmara 等人(2024 年)探索了 GDPR 的影响以及在教育中使用游戏化聊天机器人的潜力,而 Pieterse(2024 年)评估了 ChatGPT 在指导学生完成网络安全 CTF 挑战中的实用性,指出其在提供直接解决方案方面的局限性 [82], [83], [84]。Mitra 等人 [85] 开发了 LOCALINTEL,该系统利用 LLMs 从全球和本地数据库中创建组织特定的威胁情报,以提高 SoC 操作的效率。Juttner 等人 [86] 使用 ChatGPT 使 IDS 警报对非专家用户更易理解,从而改善家庭和家庭办公室环境中的网络安全。然而,对信任、隐私和伦理的担忧凸显了在广泛采用之前需要进一步研究。Yoo 等人 [87] 使用 CNN 分类器和 AI 聊天机器人检测和对抗 SNS 钓鱼攻击,这种方法比传统方法更具前景,因为它在 Telegram 上提供实时支持和操作,并在有效性方面优于 LSTM 模型。Iqbal 等人 [88] 探讨了 ChatGPT 在网络安全中的双重用途,强调了其在防御策略中的优势以及被滥用于网络攻击的风险,并呼吁对其进攻能力进行更多研究。Chamberlain 和 Casey [89] 探讨了 ChatGPT 在渗透测试和 CTF 练习中的应用,指出了其创建动态场景和增强学习过程的潜力。Aghaei 等人 [90] 开发了 SecureBERT,该工具通过引入专门针对网络威胁情报(CTI)的语言模型自动化关键网络安全任务,使用定制分词器和预训练权重改进了 NLP 任务的表现。Ameri 等人 [91] 使用 BERT 进行特征分类,并通过优化超参数将准确率从 76% 提高到 94.4%,在所有验证中表现出 ±0.6% 的标准差,并在网络安全任务中超越了 GPT-2、ULMFiT、ELMo、CNN、LSTM 和 BiLSTM 等模型。Voros 等人 [92] 利用 LLMs 的知识蒸馏高效分类 URL,减少参数数量并改进内联扫描。Happe 等人 [93] 使用 GPT-3.5 扩展渗透测试,并展示了 LLMs 作为安全测试中的人工智能陪练伙伴的作用。Lu 等人 [94] 将图结构信息和上下文学习整合到基于 LLM 的软件漏洞检测中,显著优于传统模型。Yu 等人 [95] 使用 GPT-3 生成包含用户个人身份信息(PII)的语义蜜饵,提高了其不可区分性并增强了对安全漏洞的防御能力。与传统的 LLMs 和聊天机器人不同,MoRSE 凭借即时访问不断更新的网络安全知识库脱颖而出,快速整合最新的威胁和解决方案,并为各种网络安全需求提供广泛的定制。MoRSE 不专注于特定的网络安全主题,而是旨在全面覆盖网络安全知识。此外,MoRSE 通过提供用户友好的方式访问复杂的网络安全信息,增加了灵活性并扩大了可访问性,从而提升了用户体验。
6 结论与未来工作
随着网络威胁的不断增加,有效的网络安全策略变得愈发重要。将连续学习和检索增强生成(Retrieval Augmented Generation, RAG)整合到大型语言模型(LLMs)中,能够提高它们在应对这些威胁时的准确性和及时性。在本文中,我们研究了两种 RAG 系统(结构化 RAG 和非结构化 RAG)的使用,以提供针对网络安全查询的精确且结构化的答案。在结构化 RAG 中,我们专注于实现并行检索器,以快速高效地找到与用户查询相关的文档。另一方面,非结构化 RAG 旨在回答最复杂的网络安全查询。我们实施了一套评估套件,用于评估系统生成的答案与真实情况之间的相关性、相似性和正确性。通过两个遵循“LLM 作为裁判”范式的额外测试套件,我们将系统的性能与其他知名的商业 LLM 进行了比较。结果表明,我们的系统在答案的正确性和相关性方面比竞争模型高出 10% 以上,并且在漏洞相关问题的准确性方面比 GPT-4 高出 50%。
为了使框架公开可用,我们的目标是通过引入前缀感知贪婪替换策略(Prefix-aware Greedy Replacement Policy, PAGRP) [96] 来改进 MoRSE 的语义缓存。该策略考虑查询或数据的初始片段,以便更明智地决定在缓存中存储哪些数据。PAGRP 根据缓存项的访问频率和大小对其进行优先级排序,确保系统存储最有用的数据,并最大限度地减少缓存未命中的可能性。此外,我们计划用一个综合的知识图谱取代现有的 MITRE 检索器。该知识图谱将包括缓解和检测方法,并聚合与相应 MITRE 软件相关的实际恶意软件报告。这一解决方案通过支持社区分析、中心性算法和威胁相似性的快速实时计算,提供更深入的威胁洞察。
火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐
所有评论(0)