【ECCV2022】OSFormer: One-Stage Camouflaged Instance Segmentation with Transformers

请添加图片描述

论文：https://arxiv.org/abs/2207.02255

论文中文版：https://dengpingfan.github.io/papers/[2022][ECCV]OSFormer_Chinese.pdf

代码：https://github.com/PJLallen/OSFormer

1、Motivation

伪装物体检测最近比较火，也非常有趣，具体可以参考程明明老师的知乎文章：怎样看待伪装物体检测算法出乎意料的鲁棒性？下图展示了一个伪装物体检测的示例。这篇论文范登平老师提供了中文版，论文细节可以参考该中文版。

请添加图片描述

当人类注视一个高度伪装的场景时，视觉系统会本能地在整个场景中寻找有价值的线索。受这种视觉机制的启发，作者提出了OSFormer，该方法在全局中细致地捕捉所有位置的关键信息（即，局部背景），并直接生成伪装实例掩膜（即，单阶段模型），包括两个关键部分：

位置感知 Transformer（LST），以动态地捕捉不同位置的实例线索。LST 包含一个带有混合卷积前馈网络（BC-FFN）的编码器来提取多尺度全局特征，以及一个带有位置引导 queries 的解码器来获得实例感知嵌入
由粗到细的融合模块（CFF），它通过融合主干网络和LST 的多尺度低级和高级特征来获得高分辨率的掩码特征。在此模块中还嵌入了反向边缘注意力（REA）模块，来突出伪装实例的边缘信息。

OSFormer整体架构如下图所示，下面重点介绍LST， CFF， DCIN 三个部分。
请添加图片描述

2、 LST （Location-Sensing Transformer）

请添加图片描述

LST结构如上图所示，和 deformable DETR 【1】类似，不同的地方有两处：1、在 FFN 中，加入两个卷积层，目的是“更好的捕捉局部信息并复习课件相邻 token 之间的相关性。” 2、利用编码器的多尺度特征图进行位置引导，这样提高了 query 迭代的效率，加速了收敛。

3、Coarse-to-Fine Fusion (CFF)

请添加图片描述

CFF模块结构如上图所示，之前的特征C2、T3、T4、T5 作为级联融合的输入，不断融合。作者还设计了一个 Reverse Edge Attention （REA）模块，用于捕捉边缘特征，其结构在图中有详细说明。

4、Dynamic Camouflaged Instance Normalization （DCIN）

请添加图片描述

受 AdaIN 【2】的启发，作者设计了 DCIN 来预测最终的 mask，结构如上图所示。作者采用了动态网络的思路，训练阶段 FC 层可以生成 location label。在测试阶段，使用 threshold > 0.5 过滤效的参数。随后，采用 AdaIN 获得仿射权重和偏置。最后，与CFF的输出结合得到结果。

实验部分可以参考作者的论文，这里不过多介绍。

参考文献

【1】Zhu, X., Su, W., Lu, L., Li, B., Wang, X., Dai, J.: Deformable DETR: Deformable transformers for end-to-end object detection. In: ICLR (2020)

【2】Huang, X., Belongie, S.: Arbitrary style transfer in real-time with adaptive instance normalization. In: IEEE ICCV (2017)

posted @ 2022-08-06 13:06 高峰OUC 阅读(230) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

OUC计算机科研狗

我们还有一种最后的自由，那就是选择自己的态度

【ECCV2022】OSFormer: One-Stage Camouflaged Instance Segmentation with Transformers

1、Motivation

2、 LST （Location-Sensing Transformer）

3、Coarse-to-Fine Fusion (CFF)

4、Dynamic Camouflaged Instance Normalization （DCIN）

参考文献

公告