Data-Driven Cybersecurity Knowledge Graph Construction for Industrial Control System Security

关于工业控制系统安全的数据驱动网络安全知识图构建

一、摘要

  工业控制系统(ICS)涉及许多关键行业,一旦受到攻击,将造成重大损失。然而,网络安全领域传统的被动防御方法难以有效地处理日益复杂的威胁;知识图是在网络安全分析过程中分析和处理数据的新思路。

  本文提出了一种新的数据驱动的工业控制网络安全防御的整体框架,该框架通过网络安全知识图谱将碎片化的多源威胁数据与工业网络布局集成起来。为了更好地将数据关联起来构建知识图,我们提出了一种远端监督关系提取模型ResPCNN-ATT;该模型基于深度残差卷积神经网络和注意机制,减少了远端监督中噪声数据的影响,并利用深度残差更好地提取句子中的深度语义特征。利用数据集CSER,通过经验证明了该方法在一般网络安全领域的性能;本文提出的模型比其他模型具有更高的精度。然后,利用数据集ICSER在分析特定工业控制场景的基础上,构建网络安全知识图(CSKG),将知识图可视化,以便对工业控制系统进行进一步的安全分析。

 

二、关系提取模型简介

  本文的核心技术点为:向量化、深度残差神经网络、多实例注意机制。将在后面部分详细介绍。

  首先使用预先训练好的实体对之间的词向量和位置向量作为输入,可以突出这两个实体的作用,然后使用分段卷积神经网络提取语义特征。同时,引入了深度残差学习,解决了由噪声数据引起的梯度消失问题,从而提取出更有效的语义特征。最后,为了更好地捕捉句子中更重要的语义特征,采用多实例注意机制计算实例与对应的关系之间的相关性,从而减少噪声数据的影响,提高关系提取的性能。

 三、向量化

  模型中向量表示层包括单词嵌入和位置嵌入两项内容。

  嵌入是知识图谱领域一个新的研究技术,旨在利用词向量的平移不变性将知识图谱中实体和关系嵌入到低维向量空间,进而完成知识表示。(对嵌入技术暂时理解不深入,暂时理解为文本数据的向量化,后期填坑)

1. 单词嵌入

  研究表明,当用预先训练过的词向量初始化神经网络时,参数可以收敛到更好的局部最小值。

  将一个句子中的每一个单词映射到低维实值向量空间,然后对句子执行词单词向量处理,最后得到句子中每个词的向量表示,形成一个单词向量查询矩阵。

 2. 位置嵌入

  在寻找两个实体关系时,通常接近这两个实体的单词更有可能是他们的关系描述词。所以,两个实体在句子中的位置是关系提取任务的一个重要特征。

  在句子位置向量化中,如果词向量的维数为dc,位置向量的维数为dp,则句子向量的维数为 ds = dc + dp ∗ 2。

 

   注意,上图是一个以Chrome和XSS作为两个实例的参考图,用来说明上述公式。我们得到两点信息,采用的是向量拼接法,前部分是单词向量,后部分用的是位置向量,这样显示了位置对实体关系的影响。其次,位置向量使用的相对两个实体的位置,往文本下文为正,往文本上文为负。由于两个实体,所以这也是上述公式中dp*2的原因。

四、深度残差神经网络

  PCNN模型可以起到利用所有的局部特征并且预测全局关系的作用。由于深度学习知识薄弱,具体的残差神经网络这边不做叙述,以后填坑。

五、多实例注意机制

  关系提取模型中,句子级别的注意力放在多个实例上面,这样可以减少噪声实例的影响。

六、系统性能

  本文通过验证该方法在数据集CSER和ICSER上的性能,采用的指标为RP曲线(准确率、召回率)、AUC值(RP曲线下方面积)、P@N(前N个结果的平均准确度)。

  本文主要进行两方面的比较,一是不同性能的CNN算法:CNN、PCNN、ResPCNN。第二个方面就是对数据包中数据的处理方式,AVE、ONE、ATT。AVE是数据包中所有句子分配相同权重,ONE是获取最高置信度的实例向量,在每个包选出一个最高分句子作为代表。

  结果如下:AVE可以引入更多的句子信息,但由于对每个句子有相同的评价,也会引入错误标签数据的噪声,降低了关系提取的性能,因此AVE在数据包模型中的关系提取性能最低。模型PCNN上ONE与ATT的AUC值差为0.12%,说明关系提取的性能差异不大。在模型ResPCNN和CNN上,ATT的关系提取性能略高于ONE;ATT可以在整个召回范围内获得更高的准确率。

  ResPCNNATT模型的AUC值在数据集CSER上最高,达到12.68%。本文提出的ResPCNN-ATT模型可以更好地提取句子的深度语义信息,表明引入ATT方法可以有效地减少远程监督学习中的冗余数据。

 七、系统目的

  本文构建了一个框架通过网络安全知识图谱将碎片化的多源威胁数据与工业网络布局集成起来。并且提出了一个关系提取模型ResPCNN-ATT,具有更高的精度。

posted @ 2021-10-28 20:45  chaosliang  阅读(241)  评论(0)    收藏  举报