《Rotate to Attend: Convolutional Triplet Attention Module》&《GINet: Graph Interaction Network for Scene Parsing》阅读

《Rotate to Attend: Convolutional Triplet Attention Module》

一、摘要

研究了轻量且有效的注意力机制
提出Triplet Attention：使用Triplet Branch结构捕获跨维度交互（？）来计算注意力权重的新方法。可以解决Cross-dimension的缺点。

二、相关方法

学习注意力权重背后是让网络有能力学习关注哪里，并进一步关注目标对象。些Attention机制通过建立Channel之间的依赖关系或加权空间注意Mask有能力改善由标准CNN生成的特征表示。

Channel Attention
Spatial Attention
两者结合
例子：

以上大多数方法都有明显的缺点（Cross-dimension），Triplet Attention解决了这些缺点。
Triplet Attention模块旨在捕捉Cross-dimension交互，从而能够在一个合理的计算开销内（与上述方法相比可以忽略不计）提供显著的性能收益。

三、Triplet Attention方法

目标：如何在不涉及任何维数降低的情况下，建立廉价但有效的通道注意力模型？
本文：riplet Attention实现了几乎无参数的注意机制来建模通道注意和空间注意

3.1 Triplet Attention结构

由3个平行的Branch组成

最终输出的张量：

3.2 Complexity Analysis

与其他方法的比较，C为该层的输入通道数，r为MLP在计算通道注意力时瓶颈处使用的缩减比，用于2D卷积的核大小用k表示，k<<<C。

从图表对比来看，Triplet Attention方法确实很轻量。

3.3 实验结果

图像分类
目标检测实验
消融实验
HeatMap输出对比

四、总结

本文提出Triplet Attention，它抓住了张量中各个维度特征的重要性。Triplet Attention使用了一种有效的注意计算方法，不存在任何信息瓶颈（？）。
实验证明，Triplet Attention提高了ResNet和MobileNet等标准神经网络架构在ImageNet上的图像分类和MS COCO上的目标检测等任务上的Baseline性能，而只引入了最小的计算开销。是一个非常不错的即插即用的注意力模块。

《GINet: Graph Interaction Network for Scene Parsing》

一、摘要

主要意义尝试在语义分割框架中引入额外的语义上下文信息
大部分语义分割的方法都是基于输入图像，也就是视觉特征进行分类（FCN/PSP/DeepLab），但这样就缺少了不同类别间的上下文相关性。 non-local可以通过计算不同像素之间的相关性来建立上下文关系，但计算量较大。于是有人试图将图卷积神经网络（GCN）加入到语义分割中，将特征空间中的一些区域映射到图空间中，每个节点代表不同的区域。对图空间做图卷积的话，就相当于捕捉不同区域之间的关系。之后再将图空间映射回特征空间。

二、相关方法

GCN with segmentation
首先把特征从特征空间投射到图空间，再在图空间进行卷积，捕捉区域之间的关系，最后把特征从图空间返投射到特征空间。

GloRe
GCU
SGR
LatentGNN

三、本文方法

3.1 推理视觉区域之间的关系 + 语义概念

框架

作者使用预训练好的ResNet作为backbone提取视觉特征。随后，作者将图像中的类别以文本的形式提取出来经过word embedding（如GloVe），将单词映射到方便处理的多维向量。
将视觉特征和文本特征经过graph projection投射到图空间，分别构建两个图VisG和SemG。此时VisG中的节点表示某一区域的视觉特征，边表示不同区域之间的关系。SemG中的节点和边表示经过word embedding后的文本特征和文本间的关系。
在GI Unit中进行图交互graph interaction，利用文本图的语义信息指导视觉图的形成。
将经过GI Unit处理后的图重新投影到特征空间，并通过1*1的卷积和上采样的到最终结果。

3.2 实验

结果可视化
不同节点对应不同范围

四、总结

提出了一种新的图交互单元GI unit用于上下文建模
提出了Semantic Context Loss (SC-loss) 用来强调出现在场景中的类别，抑制没有出现的类别
提出了一种图交互网络GINet

posted @ 2020-10-29 09:45 木子w 阅读(376) 评论(0) 收藏举报

刷新页面返回顶部

木子w

《Rotate to Attend: Convolutional Triplet Attention Module》&《GINet: Graph Interaction Network for Scene Parsing》阅读