《Rotate to Attend: Convolutional Triplet Attention Module》&《GINet: Graph Interaction Network for Scene Parsing》阅读

《Rotate to Attend: Convolutional Triplet Attention Module》

一、摘要

  1. 研究了轻量且有效的注意力机制
  2. 提出Triplet Attention:使用Triplet Branch结构捕获跨维度交互(?)来计算注意力权重的新方法。可以解决Cross-dimension的缺点。

二、相关方法

学习注意力权重背后是让网络有能力学习关注哪里,并进一步关注目标对象。些Attention机制通过建立Channel之间的依赖关系或加权空间注意Mask有能力改善由标准CNN生成的特征表示。

  1. Channel Attention
  2. Spatial Attention
  3. 两者结合
    例子:

以上大多数方法都有明显的缺点(Cross-dimension),Triplet Attention解决了这些缺点。
Triplet Attention模块旨在捕捉Cross-dimension交互,从而能够在一个合理的计算开销内(与上述方法相比可以忽略不计)提供显著的性能收益。

三、Triplet Attention方法

目标:如何在不涉及任何维数降低的情况下,建立廉价但有效的通道注意力模型?
本文:riplet Attention实现了几乎无参数的注意机制来建模通道注意和空间注意

3.1 Triplet Attention结构

由3个平行的Branch组成

最终输出的张量:

3.2 Complexity Analysis

与其他方法的比较,C为该层的输入通道数,r为MLP在计算通道注意力时瓶颈处使用的缩减比,用于2D卷积的核大小用k表示,k<<<C。

从图表对比来看,Triplet Attention方法确实很轻量。

3.3 实验结果

  1. 图像分类

  2. 目标检测实验

  3. 消融实验

  4. HeatMap输出对比

四、总结

本文提出Triplet Attention,它抓住了张量中各个维度特征的重要性。Triplet Attention使用了一种有效的注意计算方法,不存在任何信息瓶颈(?)。
实验证明,Triplet Attention提高了ResNet和MobileNet等标准神经网络架构在ImageNet上的图像分类和MS COCO上的目标检测等任务上的Baseline性能,而只引入了最小的计算开销。是一个非常不错的即插即用的注意力模块。

《GINet: Graph Interaction Network for Scene Parsing》

一、摘要

主要意义尝试在语义分割框架中引入额外的语义上下文信息
大部分语义分割的方法都是基于输入图像,也就是视觉特征进行分类(FCN/PSP/DeepLab),但这样就缺少了不同类别间的上下文相关性。 non-local可以通过计算不同像素之间的相关性来建立上下文关系,但计算量较大。于是有人试图将图卷积神经网络(GCN)加入到语义分割中,将特征空间中的一些区域映射到图空间中,每个节点代表不同的区域。对图空间做图卷积的话,就相当于捕捉不同区域之间的关系。之后再将图空间映射回特征空间。

二、相关方法

GCN with segmentation
首先把特征从特征空间投射到图空间,再在图空间进行卷积,捕捉区域之间的关系,最后把特征从图空间返投射到特征空间。

  1. GloRe
  2. GCU
  3. SGR
  4. LatentGNN

三、本文方法

3.1 推理视觉区域之间的关系 + 语义概念


框架

  1. 作者使用预训练好的ResNet作为backbone提取视觉特征。随后,作者将图像中的类别以文本的形式提取出来经过word embedding(如GloVe),将单词映射到方便处理的多维向量。
  2. 将视觉特征和文本特征经过graph projection投射到图空间,分别构建两个图VisG和SemG。此时VisG中的节点表示某一区域的视觉特征,边表示不同区域之间的关系。SemG中的节点和边表示经过word embedding后的文本特征和文本间的关系。
  3. 在GI Unit中进行图交互graph interaction,利用文本图的语义信息指导视觉图的形成。
  4. 将经过GI Unit处理后的图重新投影到特征空间,并通过1*1的卷积和上采样的到最终结果。

3.2 实验

结果可视化
不同节点对应不同范围

四、总结

  1. 提出了一种新的图交互单元GI unit用于上下文建模
  2. 提出了Semantic Context Loss (SC-loss) 用来强调出现在场景中的类别,抑制没有出现的类别
  3. 提出了一种图交互网络GINet
posted @ 2020-10-29 09:45  木子w  阅读(376)  评论(0)    收藏  举报