DADA一种通用的时序异常检测方法

TOWARDS A GENERAL TIME SERIES ANOMALY DETECTOR WITH ADAPTIVE BOTTLENECKS AND DUAL ADVERSARIAL DECOD
from ICLR2025

互补掩码建模方法(complementary mask modeling)

  • 将原始序列进行CI(channel independence);
  • Patch化,将单变量(unvariate)时间序列划分成P个patch,每个patch的维度为d,得到X∈RPxd
  • 沿时间维度随机掩码一部分patches,生成掩码序列Xm=M⊙XM∈{0, 1}Px1,⊙代表元素相乘;
  • 生成与Xm互补的掩码时间序列image
  • 基于Xm重构Xm横杠,基于Xm横杠重构Xm;
  • 得到最终重构结果image
  • 其中,Recon(·)=Decoder(AdaBN(Encoder(·)))

自适应瓶颈(adaptive bottlenecks)

信息瓶颈(Information Bottleneck)是信息论中的一种方法,其核心思想是通过压缩数据来提取与目标任务相关的关键信息,同时尽可能去除冗余和无关的信息。
在信息瓶颈方法中,假设我们有一个随机变量 (X) 和目标变量 (Y),并已知它们的联合概率分布 (p(X, Y))。通过引入一个中间变量 (T),我们希望 (T) 能够在压缩 (X) 的同时,尽可能保留与 (Y) 相关的信息。这种方法在数据压缩、降维以及深度学习等领域有广泛应用。

  • 瓶颈池(bootleneck pool):
  1. BNi(·),i=1,2,...,B,可将输入的特征压缩到维度为di的潜在空间;
  2. 掩码时间序列输入编码器:生成相应维度为dr的表征 z∈Rdr
  3. 每个瓶颈的处理流程:BNi(z)=UpNeti(DownNeti(z))
  4. DownNeti(·)表示将表征z压缩到潜在空间Rdr→Rdi的网络;
  5. UpNeti(·)从潜在空间Rdi→Rdr恢复表征z;
  6. 其中di是第i个瓶颈BNi(·)潜在空间的维度,di<dr
  • 自适应router(路由器?)(adaptive router):
  1. routing function生成瓶颈池中每个瓶颈的权重;(公式见下方)
  2. 为了避免重复选择某些瓶颈,导致相应的瓶颈被重复更新,而忽略了其他潜在的合适瓶颈,我们增加了噪声项来增加随机性;
    image
  3. Wrouter∈RdrxB, Wnoise∈RdrxB 均为可学习矩阵;
  4. Softplus是激活函数,R(Z) 将表示z映射到B瓶颈的选择权重;
  5. 接下来选择权重最高的k个瓶颈,它们的index set记为K,将更重要的瓶颈分配更高的权重,融合为:
    image

双对抗解码器(Dual adversarial decoders)
image

  • 重构正常时间序列:
  1. 特征抽取器G,包含patch和互补掩码模块、编码器和自适应瓶颈;
  2. 解码器Dn使用来自自适应瓶颈的输出来重建序列;
  3. 通过最小化正常序列的重建误差来学习正态时间序列模式:
    image
    Nn表示有n个正常时间序列,Xn(i)表示第i个正常序列;
  • 重构异常时间序列
  1. 对抗训练阶段,使得正常序列的重构误差最小,而异常序列的重构误差最大;
  2. 引入带参数θa的异常解码器Da,约束模型并鼓励特征提取器G(·;θg)学习正常模式特征,寻求使异常数据重构损失最大的特征提取参数θg,使表示中包含的异常信息尽可能少,同时寻找使异常数据重构损失最小的异常解码器参数θa,学习异常模式;
  3. 异常序列重构误差:
    image
    Ya(i)是第i个异常序列的标签;

既然是无监督,那么应该“无人工标注的异常数据”,异常数据哪里来?

  1. 为了减少对人类标记数据的依赖,避免对特定异常模式的过度拟合,我们通过异常注入(anomaly injection) 生成具有更常见异常模式的异常数据;

模型训练

  • 总体优化目标:一方面是对抗训练过程--使得上式最大化的参数θg和最小化的参数θa,一方面是正常序列生成--使得上上式最小化;
  • 上图在编码器和异常解码器之间使用梯度反转层(GRL)(Ganin&Lempitsky,2015)
    GRL从Da改变梯度,将其乘以−λ,并将其传递给G。也就是说,将编码器∂La/∂θg的损耗的偏导数替换为−λ∂La/∂θg,将不同优化目标的参数引导到期望的梯度下降方向,从而避免了需要两次单独的优化。
  • 最终优化目标:
    image
  • 异常判据:

在推理阶段,该模型为单个序列生成多对互补掩码序列,并输出多个重构序列。可以稳定地重建正常数据点,重建值的逼近度更高。相反,重建异常数据点是困难的,而且往往更不稳定。因此,我们利用在同一时间点的重建值的方差作为异常分数。根据现有的工作(Wang等人,2023a;Su等人,2019年),我们使用SPOT(Siffer等人,2017年)以获得阈值δ,如果一个时间点的异常得分大于δ,则将其标记为异常。

评估指标
Affiliated F1 and AUC ROC scores,Volume Under the Surface (VUS) metric (Paparrizos et al., 2022)

补充资料:

Nie Y, Nguyen N H, Sinthong P, et al. A Time Series is Worth 64 Words: Long-term Forecasting with Transformers[J]. arXiv preprint arXiv:2211.14730, 2022.
posted @ 2025-12-16 17:18  小亚1222  阅读(3)  评论(0)    收藏  举报