Paper Reading:Align Deep Features for Oriented Object Detection

https://github.com/csuhan/s2anet

Abstract

在过去的十年中,航空图像中的目标检测取得了重大进展,这些目标通常分布在大尺度变化和任意方向上。然而,现有的方法大多依赖于启发式定义的不同尺度、角度和纵横比的锚,锚盒与轴向卷积特征之间存在严重的错位,导致分类评分和定位精度普遍不一致。为了解决这一问题,我们提出了一个单次对齐网络(S2A-Net),它由两个模块组成:特征对齐模块(FAM)和面向检测模块(ODM)。FAM可以使用锚定优化网络生成高质量的锚定,并使用新型对齐卷积自适应地根据锚定框对齐卷积特性。该算法首先采用主动旋转滤波器对方向信息进行编码,然后生成方向敏感和方向不变特征,以缓解分类评分与定位精度之间的不一致性。此外,我们还进一步探索了在大尺寸图像中检测目标的方法,从而在速度和精度之间取得了更好的平衡。

Introduction

现有的大多数方法都致力于应对航空图像中拥挤物体的大尺度变化和任意方向所带来的挑战。为了获得更好的探测性能,大多数最新的空中目标探测器依赖于复杂的R-CNN[9]框架,该框架由两个部分组成:区域提议网络(RPN)和R-CNN探测头。利用RPN从水平锚点生成高质量的感兴趣区域(Region of interest, RoI),然后采用RoI池算子从感兴趣区域(Region of interest, RoI)中提取准确的特征。最后,利用R-CNN对包围盒进行回归,并将其分类为不同的类别。值得注意的是水平的ROI经常导致边界框和有方向对象之间的严重不对齐。而设计良好、具有不同角度、规模和宽高比的锚会导致大量的计算和内存占用。最近,RoI Transformer被提出,通过将水平RoI转换为旋转RoI来解决这个问题,避免了大量锚点,但仍然需要启发式定义锚点和复杂的RoI操作。与基于R-CNN的检测器相比,单级检测器回归包围盒并直接使用规则且密集的采样锚对它们进行分类。该体系结构具有较高的计算效率,但在精度上往往落后。如图1 (a)所示,我们认为在单级检测器中严重的校准问题:启发式定义的锚质量低,不能覆盖对象,导致对象和锚之间的校准不正确。这种不一致通常会加剧前景-背景类的不平衡,并阻碍性能。来自主干网络的卷积特征通常是轴向的,接收域固定,而航空图像中的物体分布有任意的方向和不同的外观。即使锚盒被分配给一个具有高置信度的实例(例如,Intersection over Union (IoU)),锚盒和卷积特性之间仍然存在错位。也就是说,锚盒所对应的特征在一定程度上很难代表整个对象。因此,最终的分类评分不能准确反映定位精度,这也影响了后处理阶段(如非最大抑制(NMS))的检测性能。为了解决单级检测器的这些问题,我们提出了一种单次校准网络(S2A-Net),它由两个模块组成:特征校准模块(FAM)和面向检测模块(ODM)。 在这里插入图片描述
FAM可以通过 Anchor Refinement Network(ARN)生成高质量anchor,并使用对齐卷积(AlignConv),根据对应的锚盒自适应对齐特征(图1(a))。不同于其他密集采样锚点的方法,我们在特征图中每个位置只使用一个平方锚点,ARN将其细化为高质量的旋转锚点。然后利用卷积的一种变体AlignConv,根据其相应锚的形状、大小和方向自适应地对齐特征。在ODM中,首先采用主动旋转滤波器(ARF)对方向信息进行编码,生成方向敏感特征,然后通过汇聚方向敏感特征提取方向不变特征。最后,我们将特征输入一个回归子网络和一个分类子网络,得到最终的预测结果。此外,我们还探索了在大尺寸图像(如4000 × 4000)上而不是在芯片图像上检测目标的方法,这大大减少了整体推断时间,但精度损失可以忽略不计。在DOTA和HRSC2016等常用数据集上的大量实验表明,我们提出的方法可以在保持高效率的同时达到最先进的性能,如图1 (b)。我们的主要贡献总结如下:
1、我们提出了一种新的对齐卷积,以完全卷积的方式缓解轴对齐卷积特征与任意方向对象之间的不对齐。注:与标准卷积相比,AlignConv的额外消耗时间可以忽略不计,可以嵌入到许多检测器中,只需稍加修改。
2、嵌入对齐卷积后,我们设计了一个轻型单镜头对齐网络,使我们能够生成高质量的锚和对齐特征,用于航空图像中的准确目标检测。
3、在DOTA数据集上,我们报告了79.42%的面向对象检测任务mAP,在速度和精度上都达到了最高水平。

Related Works

随着机器学习特别是深度学习的发展,目标检测近年来取得了显著的进展,大致可以分为两类:两级检测器和一级检测器。两级探测器首先在第一阶段生成稀疏的roi集合,在第二阶段进行roi方向的边界盒回归和对象分类。单级检测器,如YOLO和SSD,直接检测对象,不需要RoI生成阶段。通常情况下,由于前景-背景类的极不平衡,单级探测器的性能通常滞后于两级探测器。为了解决这个问题,可以使用F焦损,无锚检测器,将目标检测作为点检测问题,以避免与锚相关的复杂计算,通常运行速度更快。
A. Object Detection in Aerial Images
航拍图像中的目标往往是拥挤的、具有大尺度变化的分布和任意方向的。使用水平anchor的一般目标检测方法在这样的情况下通常会出现严重的错位:一个anchor/RoI可能包含多个实例。等方法采用不同角度、比例、纵横比的旋转锚点来缓解这一问题,但涉及锚点相关的计算量较大(如边界盒变换、地面真值匹配等)。最近提出的R3Det从对应锚盒的五个位置(如中心和角)提取特征,并对其进行汇总,重新编码位置信息。
B. Feature Alignment in Object Detection
提出的方法旨在缓解轴向卷积特征与任意方向目标之间的错位,在锚盒的引导下调整特征采样位置。
C. Inconsistency between Regression and Classification
通过为每个实例提取对齐的特征来提高分类分数。特别是在航空图像中检测密集的目标时,精确的特征对于稳健的分类和精确的定位至关重要。此外,来自主干的共享特征并不适合分类和定位。首先采用主动旋转滤波器对方向信息进行编码,然后分别提取方向敏感特征和方向不变特征进行回归和分类。

Proposed Method

在这里插入图片描述
A. RetinaNet as Baseline
选择一个具有代表性的单镜头探测器,视网膜网络[12]作为我们的基线。它由一个骨干网和两个特定于任务的子网组成。采用特征金字塔网络[31]作为骨干网提取多尺度特征。分类和回归子网络是具有多个(即4)堆叠卷积层的完全卷积网络。此外,我们还提出了Focal loss来解决训练过程中前景-背景班失衡的问题。注意,retina anet是为通用目标检测而设计的,输出水平边界框(图3 (a)),表示为:
在这里插入图片描述
在这里插入图片描述
以x = (x1, x2)为边界框的中心。为了兼容有向目标检测,我们将视网膜网的回归输出替换为有向包围盒(图3 (b))为:
在这里插入图片描述
B. Alignment Convolution
与标准卷积相比,对齐卷积(AlignConv)为每个位置p增加一个额外的偏移字段O,即:
在这里插入图片描述
在这里插入图片描述
如图4 ©和(d)所示,对于位置p,偏移场O计算为anchor base之间的差值,设(x, w, h, θ)表示位置p处对应的anchor box,对于每个r∈r,基于锚的采样位置可定义为:
在这里插入图片描述
位置p处的偏移字段为:
在这里插入图片描述
通过这种方法,我们可以将给定位置p的轴向卷积特征转换为基于相应anchor box的任意方向卷积特征。
C. Feature Alignment Module (FAM)
anchor优化网络(ARN)是一个轻网络,有两个平行分支:anchor分类分支(图中没有显示)和anchor回归分支。anchor分类分支将anchor分为不同的类别,anchor回归分支将水平anchor细化为高质量的旋转anchor。在默认情况下,由于我们只需要回归anchor box来调整AlignConv中的采样位置,因此在推理阶段将丢弃分类分支以加快模型的速度。但是对于快速版本的S2A-Net,它采用ARN的输出来产生最终的预测(见第四节d),分类分支是保留的。按照无anchor检测器中一对一的方式,我们为feature map中的每个位置预设了一个方形anchor。我们没有过滤掉低可信度的预测,因为我们注意到一些消极的预测在最终的预测中变成了积极的。对齐卷积层。通过嵌入AlignConv,我们形成一个对齐卷积层(ACL),如图5所示。具体来说,对于H×W×5anchor预测图中的每个位置,我们首先将其解码为绝对anchor盒(x, w, h,θ)。然后将Eq.(4)计算出的偏移字段连同输入特征输入到AlignConv中提取对齐特征。注意,对于每个anchor(5维),我们定期采样9个(3行3列)点,得到18维偏移字段(即,的x偏移和y偏移)9个点,见图4 ©和(d)中的蓝色箭头。此外,需要强调的是,ACL是一种轻卷积层,在偏移字段计算中,速度延迟可以忽略不计。
在这里插入图片描述
D. Oriented Detection Module (ODM)
提出了面向对象检测模块(ODM),以缓解分类评分与定位精度不一致的问题,进而进行准确的目标检测。首先采用主动旋转滤波器对方向信息进行编码。ARF是一个k × k × N的滤波器,在卷积过程中主动旋转N−1次,生成一个具有N个方向通道的特征映射(N默认为8)。对于feature map X和ARF F, Y的第i个方向输出可表示为:
在这里插入图片描述
其中Fθiis为F的顺时针方向旋转的θi, F(n) θi和X(n)分别为Fθi和X的第n个方向通道。将ARF应用于卷积层,我们可以获得具有显式编码方向信息的方向敏感特征。边界盒回归任务得益于方向敏感特征,而目标分类任务则需要不变特征。我们的目标是通过汇集方向敏感特征来提取方向不变特征。这只需选择响应最强的方向通道作为输出特性ˆX即可。
加粗样式
E. Single-Shot Alignment Network
以retina anet为基准,包括其网络架构和大部分参数设置,并基于FAM和ODM的结合形成S2A-Net。
Regression targets.
给出了参数化回归目标为:
在这里插入图片描述
Matching strategy.
采用IoU作为度量标准,如果一个锚框的IoU大于前景阈值(或小于背景阈值),则可以将其赋值为正(或负)。与水平边界框之间的IoU不同,我们计算的是两个方向边界框之间的IoU。默认情况下,在FAM和ODM中,我们将前景阈值设置为0.5,背景阈值设置为0.4。
Loss function.
S2A-Net的丢失是一个多任务的丢失,它包括两个部分,即FAM的丢失和ODM的丢失。对于每个部分,我们为每个anchor/精炼anchor分配一个类标签,并回归其位置。损失函数可定义为:
在这里插入图片描述
其中λ为损失平衡参数,1[·]为指标函数,NFand no分别为FAM和ODM中阳性样本的数量,i为一个样本在minibatch中的索引。cF i和xF i是FAM中锚点i的预测类别和细化位置。cO和xO分别是预测的对象类别和边界盒在ODM中的位置。l∗i和g∗i为锚i的地面真实类别和位置。使用Focal loss[12]和smooth L1 loss分别作为分类损失Lcand回归损失Lr。推理。s2a网络是一个完全卷积的网络,我们可以简单地通过网络转发图像,而不需要复杂的RoI操作。具体来说,我们将输入图像传递给主干网络来提取金字塔特征。然后将金字塔特征输入FAM,生成精细的锚和对齐特征。之后,ODM对方向信息进行编码,以产生高置信度的预测。最后,我们选择top-k(即2000)预测,并采用NMS来生成最终检测结果。

Experiments and Analysis

A. Datasets
DOTA,HRSC2016

B. Implementation Details
在这里插入图片描述
采用ResNet101 FPN作为骨干网,其他实验如未指定则采用ResNet50 FPN。对于每一层的金字塔特征(即,p3到P7),我们预设每个位置一个平方锚,
比例为总步幅大小的4倍(即32,64,128,256,512)。损失平衡参数λ设为1。焦丢失Lcare的超参数设置为α = 0.25, γ = 2.0。我们采用与mmdetection[32]相同的训练计划。我们为DOTA训练了12个epoch,为HRSC2016训练了36个epoch。采用SGD优化器,初始学习率为0.01,每一步衰减学习率除以10。动量衰减为0.9,重量衰减为0.0001。我们对500次迭代采用学习率预热。使用4个V100 GPU,共8个批量大小用于训练,默认情况下使用单个V100 GPU进行推理。所有实验中都包含了后处理(如NMS)的时间。
C. Ablation Studies
在本节中,我们将对DOTA的测试集进行一系列的实验,以验证我们方法的有效性。所有实验均采用ResNet50 FPN作为主干网。注意,我们扩展了mmdetection[32]中的flops_counter工具来计算我们方法的FLOPs。
作为一种单镜头探测器,视网膜网已经足够快了。然而,添加到其中的任何模块都会引入更多的计算。我们在视网膜网络上试验了不同的架构和设置。如表I (a)所示,视网膜网实现了68.05%的mAP, 215.92 GFLOPs和36.42 M参数,表明我们的基线是可靠的。当视网膜网络头部深度从4变到2时,mAP值下降0.41%,FLOPs值下降0.41%。参数)减少51.54 G(相对于此外,如果我们在每个位置设置一个锚(表I ©),与表I (a)相比,FLOPs降低了28%,精度下降了1.5%。结果表明,光检测头和少量anchor也可以实现有竞争力的性能和更好的速度-精度平衡。我们将AlignConv与其他方法进行比较,以验证其有效性。我们只将AlignConv替换为其他卷积方法,并保持其他设置不变。此外,我们还增加了与制导锚定DeformConv (GA-DeformConv)[26]的比较。需要注意的是GADeformConv的偏移域是通过1 × 1卷积从ARN中的锚点预测映射学习来的。如表2所示,AlignConv与其他方法有很大的差距。与标准卷积相比,AlignConv提高了约3%的mAP。
AlignConv提高了几乎所有类别的性能,特别是那些具有大纵横比(如桥梁)、密集分布(如小型车辆和大型车辆)和较少实例(如直升机)的类别。而DeformConv和GA-DeformConv分别仅实现了71.71%和71.33%的mAP。从图6的定性对比可以看出,AlignConv在检测密集的、任意方向的目标时,实现了准确的包围盒回归,而其他采用隐式学习的方法性能较差。

在这里插入图片描述
在这里插入图片描述
为了评估ARN和ARF的有效性,我们对不同设置的S2ANet进行了实验。如果丢弃ARN,则FAM和ODM共享相同的初始锚点,而不需要细化。如果ARF被丢弃,我们将ARF层替换为标准卷积层。如表III所示,在不考虑ARN、ACL和ARF的情况下,我们的方法mAP达到68.26%,比基线方法mAP高约1.26%。这主要是因为我们在FAM和ODM中都增加了监督。在ARN的参与下,我们得到了71.17%的mAP,这表明在ODM中,锚点细化对最终预测非常重要。此外,我们发现,在没有ACL参与的情况下,ARF对性能提升没有任何作用,即将ARF或ARN与ARF结合应用于我们的方法,分别只实现了68.35%和71.11%的mAP。但是,如果我们把ACL和ARF放在一起,则有明显的改善,从73.24%提高到74.12%。我们认为cnn不是旋转不变的,即使我们可以提取精确的特征来代表对象,相应的特征仍然是旋转敏感的。因此,ARF的参与显式地增加了取向信息,使得回归结果更好。
在这里插入图片描述
如表IV所示,我们探讨了FAM和ODM中不同的网络设计。与表IV (a)中的基线方法相比,我们可以得出结论,S2ANet不仅是一种检测精度高的有效检测器,而且在速度和参数上都是一种有效检测器。表IV (b)-(f)的结果表明,我们提出的方法对网络的深度不敏感,性能的改善主要来自我们新的对齐机制。此外,随着层数的增加,性能从表IV (d)到(f)有所下降。我们假设,更深层的接受域更大的网络可能会阻碍小尺寸物体的检测性能。而在©-(e)中,©和(e)的mAP值有显著的下降,说明FAM和ODM中相似的接受域对于高质量的物体检测更加平衡。
在这里插入图片描述
我们首先探索输入大小和裁剪步幅的不同设置,并报告在推断期间的mAP和总时间(表V)。我们首先将图像裁剪成1024 × 1024的芯片,当步幅从1024降低到512时,mAP从71.20%提高到74.62%。然而,芯片图像数量从8143张增加到20012张,总体推理时间增加了约135%。如果我们在原始的大尺寸图像上不进行裁剪的检测,推理时间减少了50%,而准确性损失可以忽略不计。我们认为种植策略很难探测到物体在边界(图7)。此外,如果我们采用FAM的输出检测和浮点16 (FP16)加快推理,我们可以减少推理时间97秒的地图为70.85%。对比我们的S2A-Net和ClusDet33,我们的方法只处理了458张图像,远远优于ClusDet。如果我们采用FAM的输出进行评估,仍然可以达到42.7%的mAP.5−。mAP.5 95和72.7%。实验结果表明,该方法是有效的,我们的检测策略可以达到更好的速度和精度折衷
在这里插入图片描述
在这里插入图片描述

Conclusion

在本文中,我们提出了一种简单有效的单镜头对准网络(S2A-Net),用于航空图像中的定向目标检测。通过提出的特征对齐模块和面向检测模块,我们的s2a网络实现了全特征对齐,缓解了回归和分类之间的不一致性。此外,我们还探索了大尺寸图像的检测方法,以更好地权衡速度和精度。大量的实验表明,我们的S2A-Net在DOTA和HRSC2016上都能实现最先进的性能。

posted @ 2021-12-26 21:22  Maggieisxin  阅读(286)  评论(0编辑  收藏  举报