Re-Attention Transformer for Weakly Supervised Object Localization概述
1.针对的问题
现有的深度网络方法主要基于类激活图,只强调最具判别性的局部区域,忽略了整个目标。此外,新兴的基于transformer的技术不断强调背景,这阻碍了完整物体的识别能力。
2.主要贡献
•提出了一种再注意机制,称为token refinement transformer(TRT),它突出了正确的兴趣目标。
•提出了一种基于累积重要性采样的自适应阈值策略,显著提高了WSOL任务中的性能。
•实验结果表明,与现有方法相比,本文提出的方法在ILSVRC和CUB-200-2011的定性和定量结果都很不错。
3.方法
提出了一种称为TRT(token refinement transformer)的再注意机制,该机制捕获了目标级语义,可以很好地指导定位过程。具体而言,TRT引入了一种新型的Token Priority Scoring Module(TPSM)来抑制背景噪声的影响,同时对目标物体进行聚焦。然后,将类激活映射作为语义感知输入,约束目标物体的注意力映射。
token优先级评分模块(TPSM)由三个组件组成。首先,利用transformer块上类token和patch token的远程依赖关系生成初步注意力图;然后引入自适应阈值策略,初步筛选出响应高的patch token注意力图。最后,对选中的token进行再注意操作,以捕获更有效的全局关系。
token初步注意力中,每个transformer块执行缩放点积注意力操作得到注意力Al,将每个块得到的注意力向量聚合得到m =
Al[0, 1:],然后将m∈R1×Nreshape为Mm∈
作为初步注意图。
token选择策略,利用累积分布采样方法构建自适应阈值,具体操作为:对初步注意力结果 m 进行排序并构建积分图,针对积分图结果确定固定阈值,则针对 m 生成了自适应阈值。首先计算m的累积分布函数F,并定义严格的单调变换T: U ~[0,1] →R为反函数,从而

Pr 是概率函数。F被认为是T的反函数,或者T(u) = F−1(u), u ~[0,1]。因此,能够从F−1(u)产生自适应阈值τ'。表示b = [m > τ']为所选patch token存在的二进制掩码。
token re-attention先根据b生成选择矩阵B∈RN×N用于token re-attention,如下
J ∈ RN×1是一个每个元素都等于1的矩阵。⊗表示张量积。B是一个二进制矩阵,其中每一项为Bi,j 意味着第j个token将用于第i个token的更新。将transformer块中的自注意模块替换为掩码自注意模块,如下所示:

将patch token zpL-1输入掩码transformer块,然后是全连接层和掩码softmax层,产生重要性权值λ。在训练阶段,利用patch token zpL−1计算重要性权重λ的加权和生成融合嵌入,进一步将class嵌入和融合嵌入连接输入到最终的transformer块中,以产生分类损失。在推断阶段,从修剪后的token的原始关系m中检索权值。再注意向量定义为:

模型结构如下
将I∈RW×H×3作为输入图像,根据patch大小P分割图像I,得到N个(N = [W/P ]×[ H/P ])非重叠patch块xp∈
。每个patch块xnp(n∈{1,...,N})在被输入到transformer块之前先线性投影到D维patch块嵌入。作为嵌入的一部分,引入了一个额外的可学习的类token zcls0∈R1×D和一个位置嵌入Epos∈R(N+1)×D,形成transformer的整个patch嵌入。
将Zl∈R(N+1)×D(l∈{1,...,L})定义为第l个transformer块的输出特征嵌入。倒数第二个transformer ZL−1的输出被输入到两个分支中,其中一个是token优先级评分模块(TPSM),其目的是使用所提出的自适应阈值策略再注意patch token,而另一个分支计算标准类激活映射。
对于CAM分支,将zpL−1 reshape为z'pL−1∈
,作为后续卷积层的有效输入。之后,输出特征被全局平均池化,然后输入一个softmax层来得到分类预测pc。
对于TPSM分支,ZL−1(=[zcL−1;zpL−1])随后用再注意模块进行处理,得到分类概率pt。测试过程中,首先将zpL−1输入到TPSM中,通过对patch token执行再注意操作,获得上下文感知特征映射MT∈
。对应的,应用标准CAM生成特定类的激活映射MC∈
,MT和MC点乘得到注意力图M,通过双线性插值进一步调整映射M的大小,使其与原始图像的大小相同。使用确定阈值将前景从背景中分离出来。然后寻找紧凑的边界框,它包围了前景像素中最多的相关区域。最后采用网格搜索的方法,将获取边界框的阈值更新为最优值。

浙公网安备 33010602011771号