Predicting Entity Relations across Different Security Databases by Using Graph Attention Network
利用图注意网络预测不同安全数据库之间的实体关系
一、摘要
常见漏洞和暴露(CVE)、常见弱点枚举(CWE)和常见攻击模式枚举和分类(CAPEC)等安全数据库维护各种高质量的安全概念,这些概念被视为安全实体。同时,安全实体记录有许多潜在的关系类型,这些关系类型有利于这三个流行数据库的安全分析和理解。为了支持推理安全实体关系,基于翻译的知识图表示学习独立地对待每个三元组进行实体预测。然而,它忽略了三元组周围邻居实体的重要语义信息。
为了解决这个问题,我们提出了一个文本增强的图注意力网络模型。该模型在观察每个实体的多样性的情况下,强调了在三元组的2-hop邻居中的知识的重要性。因此,我们可以从安全数据库的知识图中获取更多的结构和文本信息。本文设计了大量的实验来评估我们提出的模型在预测安全实体关系上的有效性。此外,在检测缺失关系方面,平均互反秩(MRR)为0.132,优于目前的算法。
二、文章贡献
1. 我们设计了一种先进的文本增强GAT模型,以更好地表示和学习安全知识图中的结构和文本知识,该模型集成了软件漏洞、弱点和攻击模式。
2. 我们将2−hop相邻节点的知识作为附加信息,丰富了给定安全实体的实体关系特征。
3. 我们通过大量的实验来衡量我们提出的模型的性能,并阐明图注意网络在预测安全实体关系方面的优越性。
三、数据集介绍
Common vulnerability and exposure:
CVE数据库作为一个众所周知的安全漏洞记录,为每个公共安全漏洞或暴露提供了唯一的识别号CVEID。此外,数据库中的一个CVE具有标准的文本描述和至少一个公共引用。这种字典结构有利于理解安全漏洞,评估相关服务、工具和数据库,从而需要建立一个更容易理解、语义安全知识丰富的cve相关数据库。
Common Weakness Enumeration:
CWE是由安全团体开发的软件和硬件弱点类型的列表。在开发人员设计、编码或实现软件和硬件时,CWE数据库定义的弱点包括漏洞、bug、缺陷、错误和其他错误。具有这些弱点的网络甚至整个系统都可能受到攻击。CWE数据库提供了与这些弱点相关的丰富的安全知识,如安全工具的标尺、源代码检查服务,以及设计安全软件架构的有效建议。
Common Attack Pattern Enumeration and Classification:
CAPEC提供了一个已知攻击模式(CAPEC)的全面字典,攻击者使用CAPEC来利用应用程序和系统中的软件或硬件弱点。它有助于分析人员和开发人员了解如何操作攻击模式,以及如何推进网络安全。在CAPEC数据库中,攻击模式包括攻击者所采用的常见属性和方法。它还提出了利用已知弱点和解决潜在风险的挑战。例如,CAPEC-34表示“HTTP Response Splitting”攻击模式,CAPEC-66表示SQL Injection, CAPEC-100表示Buffer Overflow攻击模式。
四、系统整体结构

我们首先基于CVE、CWE和CAPEC数据库的所有安全知识,构建如上图 a)所示的安全知识图。接下来的知识表征分为两部分,结构信息的嵌入和实体描述的嵌入。
结构信息嵌入:我们采用TransE训练这样的三元组作为初始结构嵌入。这样就避免了被随机初始化忽略的结构信息的负面影响,有效地获得了跨三个安全数据库的关系知识。我们将这个结构嵌入向量设置为100维。
描述信息嵌入:我们首先使用 NLTK(python NLP 工具包)对文本句子进行标记,删除停用词并阻止这些句子。标记(单词)被发送到 word2vec 模型 中,该模型已在 [8]、[22]、[23] 中广泛使用。每个词 x 都被转换成一个维度为 100 的向量。我们将每个实体描述中的所有词向量连接起来,从而使用公式 Dn = x1⊕ x2⊕ ...⊕ xn 生成一个句子向量。
在注意力层,我们致力于所有实体周围的 2-hop 邻居,我们使用 2-hop 的原因是实体之间的 2-hop 占绝大多数。因此,一个实体从它的 2 跳邻居那里获得额外的实体和关系知识。在这条 2 跳邻居的路径中,将关系的嵌入值相加,这被认为是扩展的关系嵌入值。同时,实体的嵌入值在每个图注意力层之后进行归一化(见上图 d),以防止状态爆炸的问题。
五、整体性能
我们首先分析表 IV 中四个指标 MR、MRR、Hits@5 和 Hits@10 的平均结果。我们的文本增强 GAT 模型比基本模型更早地找到要预测的正确实体,在 Filter 的设置下,基线从 119 减少到 96。它还将 0.132 MRR 值从 0.559 提高到 0.691。从 Hits@N 的角度来看,我们观察到,当采用 Filter 设置时,Hits@5 和 Hits@10 的结果分别增加了 0.178(从 0.562 到 0.740)、0.146(从 0.624 到 0.770)。这表明文本增强 GAT 模型不仅可以表示实体的文本描述,还可以从 2 跳邻居中提取更有利的关系。


 
                
            
         
         浙公网安备 33010602011771号
浙公网安备 33010602011771号