图数据异常检测的扩散建模技术

图数据异常检测的扩散建模技术

异常检测是指识别显著偏离既定规范的数据,这些数据可能指示有害活动。对于基于图的数据而言,这是一个特别艰巨的挑战,因为异常检测不仅基于数据值,还基于图内的拓扑关系。由于异常往往罕见,很难找到足够的样本来训练机器学习模型以应对图中异常检测的复杂性。

在近期国际网络搜索与数据挖掘会议(WSDM)上发表的一篇论文中,介绍了一种为基于图的异常检测器合成训练数据的新方法。该方法将变分图自编码器(学习可用于生成随机样本的概率分布)与扩散建模(学习将随机噪声转换为可理解输出)相结合。

在测试中,将使用该方法生成的合成数据训练的异常检测器与使用五种先前数据增强方法训练的检测器进行了比较。在五个数据集上使用三种不同指标进行模型比较,共进行15项实验。其中13项实验中,该方法模型表现最佳;另外两项实验中不同模型表现最优。

基于图的建模

图是表示数据通过网络(无论是计算机网络、通信网络还是交互网络,如电子商务网站上买卖双方之间的交互)移动的自然方式。因此,图中的异常检测有助于检测服务器攻击、垃圾邮件、欺诈和其他类型的滥用行为。

近年来,与大多数领域一样,图分析受益于深度学习。图神经网络迭代地构建图表示:首先,它们嵌入图中节点对应的数据;然后生成结合节点嵌入和相邻节点嵌入的嵌入;接着生成结合这些更高级别嵌入的嵌入;依此类推,直到某个固定终止点。最终,模型生成捕获图整个邻域信息的嵌入(在实验中决定使用四跳邻域)。

图的复杂性(需要拓扑和定量表示数据)意味着分析它们的模型需要额外的训练数据,而这些数据在现实世界中可能稀缺。因此需要合成训练数据。

潜在空间扩散

该数据合成模型的核心是变分图自编码器。“自编码器”意味着它被训练为输出与接收输入相同的数据。然而,在输入和输出层之间是一个瓶颈层,迫使网络学习输入的压缩表示。

“变分”意味着模型的训练目标不仅鼓励其忠实再现输入,还鼓励学习其分布符合某些预设形状(如高斯分布)的压缩表示。这意味着在数据合成阶段,从该分布中随机采样很可能产生看起来真实的数据。

自编码器的压缩表示定义了一个表示空间,正是在该空间内应用扩散建模。自编码器生成输入图的嵌入,模型迭代地向其添加噪声。然后去噪器以相反方向执行相同过程,迭代地对嵌入进行去噪。

这实际上是确保合成数据看起来像真实数据的第二次检查。如果自编码器学习的分布未完全捕获异常数据的特征,添加噪声可以“模糊化”错误表征的特征。然后去噪步骤用与训练数据更一致的特征填充模糊化的特征。

数据合成

该方法还有其他几个旨在提高合成数据质量的特点。一是扩散过程后,重构的图嵌入传递到不止一个而是几个解码器,每个解码器专门处理图的不同方面。

至少有两个解码器,一个用于节点特征,一个用于图结构。如果所讨论的图包括时间序列数据,则使用第三个解码器为节点分配时间戳。

另一个特点是在训练期间,将图节点标记为异常或正常,然后在正例和负例上训练。这有助于模型学习两者之间的区别。但也意味着模型学习了以类别标签为条件的分布,因此在合成过程中,可以引导其朝向会产生包含异常的图的样本。

最后,模型必须能够生成异构图(即具有不同节点和边类型的图)。例如,在电子商务环境中,节点可能表示买家、卖家和产品页面,而边可能表示购买、产品查看、评论等。

因此,作为自编码器中的编码器,使用异构图变换器,该模块经过若干修改以使其能够处理异构图,包括用于不同节点或边类型的单独注意力机制。

综上所述,模型的这些特点使其能够优于前代模型,在论文中报告了一项消融研究,表明这些特点中的每一个都对模型的成功有显著贡献。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
公众号二维码

posted @ 2025-09-01 17:21  CodeShare  阅读(1)  评论(0)    收藏  举报