Mask DINO: Towards A Unified Transformer-based Framework for Object Detection and Segmentation

郑重声明：原文参见标题，如有侵权，请联系作者，将会撤销发布！

Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023.

Abstract

　　在本文中，我们提出了一个统一的目标检测和分割框架Mask DINO。Mask DINO通过添加一个支持所有图像分割任务（例如，全景和语义）的掩码预测分支来扩展DINO（具有改进的去噪锚框的DETR）。它利用DINO的查询嵌入来点积高分辨率的像素嵌入图来预测一组二值掩码。DINO中的一些关键组件通过共享的架构和训练过程进行扩展，用于分割。Mask DINO简单、高效、可扩展，可以受益于联合大规模检测和分割数据集。我们的实验表明，Mask DINO在ResNet-50主干和SwinL主干的预训练模型上都显著优于所有现有的专业分割方法。值得注意的是，Mask DINO在10亿个参数下的模型中建立了迄今为止实例分割（COCO上的54.5 AP）、全景分割（COCO上的59.4 PQ）和语义分割（ADE20K上的60.8 mIoU）的最佳结果。代码位于https://github.com/IDEA-Research/MaskDINO。

1. Introduction

　　目标检测和图像分割是计算机视觉的基本任务。这两个任务都涉及在图像中定位感兴趣的目标，但具有不同的聚焦级别。目标检测是定位感兴趣的目标并预测其边界框和类别标签，而图像分割侧重于不同语义的像素级分组。此外，图像分割包括各种任务，包括实例分割、全景分割和关于不同语义的语义分割，例如，实例或类别资格、前景或背景类别。

　　为这些任务开发的具有专门架构的经典卷积算法取得了显著进展，如用于目标检测的Faster RCNN [24]、用于分割的Mask RCNN [9]和用于语义分割的FCN [21]。尽管这些方法在概念上简单有效，但它们是为专门任务量身定制的，并且缺乏解决其他任务的泛化能力。桥接不同任务的雄心催生了更先进的方法，如用于目标检测和实例分割的HTC [2]，以及全景FPN [14]、K-net [33]，例如全景和语义分割。任务统一不仅有助于简化算法开发，还可以提高多任务的性能。

　　最近，基于Transformer [27]开发的类DETR[1]模型在许多检测和分割任务上取得了令人鼓舞的进展。作为一种端到端的目标检测器，DETR采用了一组预测目标，并消除了手工制作的模块，如锚点设计和非最大值抑制。尽管DETR同时处理目标检测和全景分割任务，但其分割性能仍不如经典分割模型。为了提高基于Transformer的模型的检测和分割性能，研究人员开发了用于目标检测[15，18，32，35]、图像分割[3，4，33]、实例分割[7]、全景分割[23]和语义分割[12]的专门模型。

　　在改进目标检测的努力中，DINO [32]利用了DAB-DETR [18]的动态锚框公式和DN-DETR [15]的查询去噪训练，并首次在COCO目标检测排行榜上作为类DETR模型实现了SOTA结果。类似地，为了改进图像分割，MaskFormer [4]和Mask2Former [3]提出使用基于查询的Transformer架构来统一不同的图像分割任务，以执行掩码分类。这种方法在多个分割任务上取得了显著的性能改进。

　　然而，在基于Transformer的模型中，性能最好的检测和分割模型仍然不统一，这阻碍了检测和分割任务之间的任务和数据合作。作为证据，在基于CNN的模型中，Mask-R-CNN [9]和HTC [2]仍然被广泛认为是统一的模型，它们实现了检测和分割之间的相互合作，以实现比专门模型更优越的性能。尽管我们相信在基于Transformer的模型中，检测和分割可以在统一的架构中相互帮助，但简单地使用DINO进行分割和使用Mask2Former进行检测的结果表明，它们不能很好地完成其他任务，如表1和表2所示。此外，琐碎的多任务训练甚至会影响原始任务的性能。这自然会引出两个问题：1）为什么在基于Transformer的模型中，检测和分割任务不能相互帮助？以及2）是否有可能开发一个统一的结构来取代专门的结构？

　　为了解决这些问题，我们提出了Mask DINO，它用与DINO的框预测分支并行的掩码预测分支来扩展DINO。受其他用于图像分割的统一模型[3，4，28]的启发，我们重用来自DINO的内容查询嵌入，以在从主干和Transformer编码器特征获得的高分辨率像素嵌入图（输入图像分辨率的1/4）上对所有分割任务执行掩码分类。掩码分支通过简单地用像素嵌入图对嵌入的每个内容查询进行点生成来预测二值掩码。由于DINO是用于区域级回归的检测模型，因此它不是为像素级对齐而设计的。为了更好地在检测和分割之间对齐特征，我们还提出了三个关键组件来提高分割性能。首先，我们提出了一种统一且增强的查询选择。它利用编码器密集先验，通过从排名靠前的token预测掩码来初始化掩码查询作为锚点。此外，我们观察到像素级分割在早期更容易学习，并提出使用初始掩码来增强框，从而实现任务协作。其次，我们提出了一种统一的掩码去噪训练方法来加速分割训练。第三，我们使用混合二分匹配来实现从地面实况到框和掩码的更准确和一致的匹配。

　　Mask DINO在概念上很简单，很容易在DINO框架下实现。总之，我们的贡献有三个方面。1）我们为目标检测和分割开发了一个统一的基于Transformer的框架。由于该框架是从DINO扩展而来的，通过添加掩码预测分支，它自然继承了DINO中的大多数算法改进，包括锚框引导的交叉关注、查询选择、去噪训练，甚至在大规模检测数据集上预训练的更好的表征。2）我们证明了检测和分割可以通过共享的架构设计和训练方法相互帮助。特别是，检测可以显著地帮助分割任务，即使是分割背景“stuff”类别。在与ResNet-50主干相同的设置下，与DINO（COCO检测上+0.8 AP）和Mask2Former（COCO实例、COCO全景和ADE20K语义分割上+2.6 AP、+1.1 PQ和+1.5 mIoU）相比，Mask DINO优于所有现有模型。3）我们还表明，通过统一的框架，分割可以受益于大规模检测数据集上的检测预训练。在具有SwinL [20]主干的Objects365 [26]数据集上进行检测预训练后，Mask DINO显著改进了所有分割任务，并在10亿个参数下的模型之间的实例（在COCO上为54.5 AP）、全景（在COCO上为59.4 PQ）和语义（在ADE20K上为60.8 mIoU）分割上取得了最佳结果。

2. Related Work

3. Mask DINO

　　Mask DINO是DINO [32]的延伸。在内容查询嵌入之上，DINO有两个分支用于框预测和标签预测。框被动态更新并用于引导每个Transformer解码器中的可变形注意力。Mask DINO为掩码预测增加了另一个分支，并最小限度地扩展了检测中的几个关键组件，以适应分割任务。为了更好地理解Mask DINO，我们先简单回顾一下DINO，然后介绍Mask DINO。

3.1. Preliminaries: DINO

　　DINO是一个典型的类DETR模型，它由主干、Transformer编码器和Transformer解码器组成。框架如图1所示（蓝色阴影部分没有红线）。在DAB-DETR [18]之后，DINO将DETR中的每个位置查询公式化为4D锚框，该4D锚框通过每个解码器层动态更新。请注意，DINO使用具有可变形注意力的多尺度特征[35]。因此，更新后的锚框也用于以稀疏和柔和的方式约束可变形注意力。继DN-DETR [15]之后，DINO采用去噪训练，并进一步发展对比去噪，以加速训练收敛。此外，DINO提出了一种混合查询选择方案来初始化解码器中的位置查询，以及一种向前两次的方法来改进框梯度反向传播。

3.2. Why a universal model has not replaced the specialized models in DETR-like models?

3.3. Our Method: Mask DINO

　　Mask DINO采用与DINO相同的结构设计进行检测，只需进行最小的修改。在Transformer解码器中，Mask DINO添加了一个用于分割的掩码分支，并扩展了DINO中用于分割任务的几个关键组件。如图1所示，蓝色阴影部分的框架是原始的DINO模型，用于分割的额外设计用红线标记。

3.4. Segmentation branch

3.5. Unified and Enhanced Query Selection

3.6. Segmentation Micro Design

4. Experiments

4.1. Main Results

4.2. Comparison with SOTA Models

4.3. Ablation Studies

5. Conclusion

posted on 2024-05-24 17:34 穷酸秀才大草包阅读(717) 评论(0) 收藏举报

刷新页面返回顶部

穷酸秀才大艹包

Mask DINO: Towards A Unified Transformer-based Framework for Object Detection and Segmentation

导航

公告