Self-Supervised Masked Convolutional Transformer Block for Anomaly Detection概述

0.前言

相关资料：
- arxiv
- github
- 论文解读
论文基本信息：

领域：异常检测
发表时间：arxiv 2022(2022.9.25)

1.针对的问题

　　这篇论文主要是在作者之前的工作，自监督预测卷积注意块(SSPCAB)，基础上进行改进，使用一个3D掩码卷积层，以及一个用于通道级注意的transformer将其扩展为自监督掩码卷积transformer块(SSMCTB)，提升了适用性与性能。

2.主要贡献

　　这里的贡献是相对于SSPCAB来看，包括5点：

　　•将2D掩码卷积扩展到考虑3D上下文的3D掩码卷积，并将新的3D SSMCTB集成到两个3D网络中，用于异常检测。

　　•将SSPCAB的Squeeze-and-Excitation模块替换为执行通道注意力的transformer模块。

　　•进行了一组更全面的实验，包括一种新方法和两个来自以前缺失领域(医学图像、热视频)的新基准。

　　•提供了广泛的消融研究，包括提出的自监督区组的不同变体。

　　•用异常标签注释了Drift数据集中Seasons的一个子集(一周的视频)，获得了热视频异常检测的新基准。

3.方法

　　总体结构与SSPCAB类似，不过将2D掩码卷积扩展到考虑3D上下文的3D掩码卷积，Squeeze-and-Excitation模块替换为执行通道注意力的transformer模块。

　　3D掩码卷积就是在2D的基础上增加一个维度，如下：

　　channel-wise transformer块:

　　设f是一个多头注意力层，有H∈N⁺个头，g为多层感知器，norm为归一化层，P, R∈R^c×d_^t是一些辅助张量。在transformer内部执行的操作为:

　　将等式(1)和等式(2)所描述的整个过程重复L次，其中L∈N⁺表示transformer模块内的transformer块的数量。对于第一个transformer块，R用T^∗初始化。在式(1)中，将c个token的序列R归一化，送入多头注意力层并与自身相加，得到P。进一步，将P归一化，输入多层感知器，并根据等式2对自身进行相加。最后一个transformer块返回的输出序列R沿着token维度进行平均，得到∈R^c×1。

　　模型结构如下：

　　设X∈R^h×w×r×c为掩码卷积层的输入张量，其中c为通道数，h和w分别为高度和宽度，r为深度，除了输入数据和内核本身都是3D的之外，3D过滤器与2D过滤器的使用类似，得到输出张量Z∈R^h×w×r×c。

　　对于2D掩码卷积的输出应用空间平均池化，得到∈R^h'×w'×c，其中h'≤h，w'≤w，然后进行reshape操作，得到矩阵A∈R^c×n，每行包含一个n=h'·w'的矢量，以表示每个掩码滤波器。接下来，将A输入到线性投影层中，获得token T∈R^c×d_^t，再与位置嵌入相加，得到最终的token T^∗∈R^c×d_^t。然后输入channel-wise transformer块，得到∈R^c×1，输入到sigmoid层，生成分配给每个通道的最终注意力权重。最后，将得到的注意力权值应用于张量Z，得到以∈R^h×w×c表示的重构输出。

posted @ 2022-10-10 16:31 Lhiker 阅读(481) 评论(0) 收藏举报

刷新页面返回顶部

自由方向

Self-Supervised Masked Convolutional Transformer Block for Anomaly Detection概述

0.前言

1.针对的问题

2.主要贡献

3.方法

公告