Proactive Identification of Exploits in the Wild Through Vulnerability Mentions Online

通过网上提到的漏洞,主动识别野外漏洞

标签

漏洞利用预测

摘要

  发现和公开的软件漏洞数量每年都在增加;然而,它们中只有一小部分在现实世界的攻击中被利用。由于时间和技术资源的限制,组织经常寻找方法来识别受到威胁的漏洞,以确定补丁的优先级。在本文中,我们提出了一个漏洞预测模型,预测一个漏洞是否会被利用。我们提出的模型利用了来自各种在线数据源的数据(白帽社区、漏洞研究社区和暗网/深网站点)。
  与标准评分系统(CVSS基分)相比,我们的模型对少数类的F1度量为0.40(比CVSS基础分提高了266%),并且在较低的假阳性率(分别为90%和13%)下获得了高的真阳性率(F1值分别为0.40和13%)。结果表明,该模型作为可能在野外出现的漏洞的早期预测是非常有效的。我们还提供了一项定性和定量的研究,内容是当我们检查的每个数据源中提到一个漏洞时,利用漏洞的可能性会增加。

本文贡献

  1. 展示了所开发的机器学习模型在预测野外漏洞方面的有效性,其真阳性率(TPR)为90%,而假阳性率(FPR)保持在15%以下。
  2. 我们发现了在EDB(9%)、ZDI(12%)和DW(14%)上提到的漏洞利用可能性比只在NVD上披露的漏洞(2.4%)有所增加。

模型组成

模型主要由三个部分组成:

  1. 数据收集
    数据源包括NVD、EDB、ZDI、DW等
  2. 特征提取
    我们从数据中提取相应的漏洞描述、一些特征、披露等
  3. 利用预测
    我们使用了几种有监督机器学习的方法,评估漏洞利用预测的性能。

实验结果

  使用随机森林模型优于CVSS评分,F1指标为0.4,精度为0.45,召回率为0.35。并且,分类器在低FPR(13%)的情况下显示了非常高的TPR(90%),AUC为94%。
  当只使用 nvd 特征时,分类器的 f1值为0.24(精度: 0.15,召回率: 0.56) ,而当添加 edb 特征时,分类器的 f1值为0.35(精度: 0.31,召回率: 0.40) ,精度显著提高。
  最终我们的结果表明,在保持高真阳性率的同时,我们在预测exploit时实现了显著的低假阳性率。

posted @ 2021-12-13 20:27  chaosliang  阅读(140)  评论(0)    收藏  举报