DeNet:具有定向稀疏采样的可扩展实时目标检测
DeNet: Scalable real-time target detection with directed sparse sampling
摘要
我们将图像问题中的对象检测定义为估计非常大但非常稀疏的边界框依赖概率分布。随后,我们识别稀疏分布估计方案,定向稀疏采样,并将其用于基于单个端到端CNN的检测模型。该方法扩展并规范了先前最先进的检测模型,并进一步强调了高评估率和减少了手工工程。我们介绍了两个新颖的,一个基于角落的感兴趣区域估计器和一个基于反卷积的CNN模型。得到的模型是场景自适应的,不需要手动定义的参考边界框,并在MSCOCO,Pascal VOC 2007和Pascal VOC 2012上以实时评估率产生极具竞争力的结果。进一步的分析表明,当需要细粒度的物体定位时,我们的模型表现得特别好。我们认为,这种优势源于相对于其他方法的可用感兴趣区域的显着更大的集合。源代码可从以下网址获得:https://github.com/lachlants/denet
1 介绍
当在随机梯度下降(SGD)下随机初始化时,前馈神经网络表现出良好的收敛特性,并且在适当的网络设计和训练方案下可以很好地扩展到先前不可见的数据[8]。特别是,由交错卷积和聚合层构成的卷积神经网络(CNN)和ReLU激活函数在计算机视觉任务中设置了许多基准[8] [6] [20]。已经开发了许多方法来将其最先进的密集回归和分类能力映射到识别图像中的对象实例的轴对齐边界框的问题。我们强调了相对较慢的基于区域的CNN方法(R-CNN [4],更快的R-CNN [15])和最近的实时检测工作(YOLO [14],SSD [12])。
在本文中,我们不是专注于在竞争环境中获得最先进的准确度(即,计算上不受约束),而是强调以预定的评估速率(即60Hz和30Hz)获得最佳检测性能的双重任务。本文的主要贡献包括:
•改进了对现代检测方法的理论理解和描述它们的通用框架,即定向稀疏采样。
•一种新颖,快速,感兴趣的区域估计器,不需要手动定义的参考边界框。
•去卷积层的新应用,大大提高了评估率。
•我们的方法的六个实现证明了在一系列基准测试中的竞争性检测性能。
•基于Theano的轻松扩展代码版本,以方便研究社区。

图1.描述DeNet方法的高级流程图。
CNN以蓝色突出显示,新颖组件以紫色突出显示,输出以黄色突出显示。采样边界框依赖性BS(以红色突出显示)在反向传播期间保持恒定,以产生端到端训练模型。使用交叉熵损失联合优化角分布和最终分类分布。
1.1 相关工作
在基于区域的CNN检测(R-CNN)[4]中,首先使用区域提议算法预处理图像,例如, 选择性搜索[21],区域提议网络(RPN)[15]等。该算法识别感兴趣的图像区域(即边界框),然后将其重新缩放到固定尺寸(标准化尺度和纵横比)并送入 基于CNN的分类器。
CNN指定区域绑定感兴趣对象或空类的概率,并且通过线性回归识别改进的边界框。这种方法已经证明了最先进的结果,但是,培训和评估非常昂贵,需要多次完整的CNN评估(每个区域提案一个)和通常昂贵的预处理步骤。由于大多数CNN计算发生在前几层,快速R-CNN [3]通过对图像应用浅CNN解决了这些问题,然后,对于每个区域,从生成的特征映射中提取固定大小的特征用于最终 分类。在更快的R-CNN [15]中,区域提议算法被集成到CNN中,提供端到端解决方案,改进的时序并证明两个任务(区域提议和分类)共享相似的基础特征。尽管有这些改进,但据我们所知,基于区域的CNN还没有被证明在实时频率附近运行。
(YOLO)[14]他们偏离上述基于算法定义的基于区域的方法,而是选择预定义的,规则的探测器网格。实际上,他们将区域分类问题合并到最快在R-CNN中提出的区域提议网络(RPN)。通过这种方法,CNN仅被评估一次以产生所有检测器的结果,从而显着减少训练和评估时间。在单次检测器(SSD)[12]中,这种方法通过改进的网络设计和培训方法进一步完善,以证明与基于区域的方法具有可比性。我们注意到,使用SSD实现的显着改进需要依赖于场景的工程来手动预定义图像中最可能的一组区域以包含对象,这是与更快的R-CNN区域提议网络共享的缺陷。特别是,通过在Pascal VOC2007 [1]数据集上为预定义区域添加四个纵横比,SSD表现出2.7%MAP [12]的改进,突出了手动工程在现代探测器设计中的重要性。在没有详细说明的情况下,我们注意到在实践中,手动设计的解决方案通常会限制不同问题集的可扩展性和适应性(无需昂贵的重新设计过程)。
这些方法之间的主要区别在于每种方法如何识别和处理要分类的区域。基于R-CNN的方法基于算法预处理步骤稀疏地对样本区域进行采样并对感兴趣区域进行归一化,而基于YOLO的方法利用手动定义的检测器网格执行密集采样而不进行图像归一化。密集方法通常非常适合当前的实现,因此与稀疏方法相比具有显着的时序优势。然而,在这项工作中,我们展示了一种新颖的模型设计,它结合了基于稀疏区域的方法的训练的容易性,场景适应性和分类准确性与基于密集非区域的方法的快速训练和评估。
1.2 目标检测概率
我们将概率多类检测问题表示为首先估计分布Pr(s | B,I),其中s∈C∩{null}是一个随机变量,表示存在类c∈C或null类的实例(表示no实例)由框B = {x,y,w,h}充分限定,并且I是输入图像(在后续推导中省略)。该公式包含的假设是,只有一个类的实例可以占用每个边界框。我们注意到该定义不寻求执行实例分配,而是可以用作例如算法的输入。非最大抑制
给定一个合适的神经网络设计,我们断言Pr(s | B)可以通过带有类边界框注释的训练数据来估计。但是,由于唯一边界框的数量由| B |给出αXYWH其中(X,Y)是图像位置的数量,并且(W,H)边界框尺寸的范围,天真的解决方案很快变得难以处理。例如,假设ImageNet数据集的最常见设置,1000个类和224×224图像,并考虑图像中的所有有效边界框,表示此分布需要大约629×109值或2.5TB的32位浮点格式。显然,这是当前硬件难以处理的问题。
以定位精度为代价,对输出边界框进行二次采样是一种有效的方法。例如,通过仔细的数据集依赖手动工程,更快的RCNN和基于YOLO的方法将分布子采样到104到105个边界框的顺序[14] [15]。然后通过线性回归仅估计局部区域中最可能的边界框来细化这些框。
作为大规模子采样的替代方案,我们试图利用以下事实:由于遮挡和其他因素,我们期望非常小的边界框子集包含除null类之外的类实例。随后,我们基于单个端到端CNN的最先进的回归功能开发了一种解决方案,该解决方案实时(或计算约束)估计高度稀疏的分布Pr(s | B) 运营环境。
2 定向稀疏采样(DSS)
我们使用术语定向稀疏采样来指代应用联合优化的两级CNN的方法,其中一级估计用户定义的感兴趣值发生的可能位置,另一级稀疏地分类所识别的值,例如,在基于R-CNN的模型(包括R-FCN和DeNet)中,我们估计最有可能包含非空类赋值的边界框,然后在这些边界框上运行分类器
2.1 基于角点RoI探测器
在这里,我们介绍了有效感兴趣区域(RoI)估计的边界框角点估计的概念。在我们的方法中,通过估计图像中每个位置包含4个角点类型之一的实例的可能性来执行此任务,即Pr(t | k,y,x)其中t是表示角落存在的二进制变量 类型为k∈{左上,右上,左下,右下}在输入图像中的位置(x,y)。我们断言,由于问题的自然平移不变性,可以使用在边界框注释图像数据(例如MSCOCO [11],Pascal VOC [1]等)上训练的标准CNN设计来有效地执行角分布的估计。
通过定义角分布,我们通过将朴素贝叶斯分类器应用于边界框的每个角来估计边界框B包含实例的可能性:

其中(xk,yk)= fk(B)表示与每个角类型k相关联的边界框位置。为了便于实现,我们将具有最大非零概率Pr(s =\ null | B)的N×N个边界框定义为采样边界框BS。用户定义的变量N平衡模型可以处理的最大检测数量与计算和内存要求
在估计可能的非零边界框的情况下,我们将预定长度的特征向量从角点检测器模型传递到最终分类阶段。因此,最终分类阶段是形式f:¯→B→Pr(s | B)的函数,其中¯≤B是由采样边界框B∈BS唯一识别的特征向量。重要的是该特征与每个边界框唯一地相关联,否则分类器将没有信息来区分具有相同的边界框的边界框。究竟如何构造特征向量仍然是一个争论的问题[9,15]然而我们通过将相对于每个采样边界框的预定义位置处的最近邻点采样特征连接在一起来构造¯?B(例如,边界框角,中心等等)除了边界框的宽度和高度。从特征向量中省略了边界框中心位置,使得分类器对于图像偏移是不可知的。
2.2 训练
在训练期间,模型最初向前传播以生成采样边界框BS,如前一小节中所述。此外,我们使用地面实况边界框和随机生成的样本来扩充采样边界框。然后,我们通过模型的其余部分传播与增强的一组采样边界框相关联的激活,以产生最终的分类分布Pr(s | BS)和更新的边界框参数。该组采样边界框BS在梯度估计期间保持恒定以实现端到端训练,因此角点检测器网络结合边界框分类和估计任务进行优化。由于前向传播是通常用于优化神经网络的基于反向传播的SGD策略中的必要预处理步骤,因此DeNet方法不会对标准密集网络上的训练时间造成任何损失。
DeNet模型共同优化了角点概率分布,最终分类分布和边界框回归成本,即:

其中ø(...)是地面实况角和分类分布,øB,i = {xi,yi,wi,hi}地面实况边界框,(λs,λt,λb)是用户定义的常数表示每个分量的相对强度,(Λs,Λt,Λb)是在给定模型初始化时将每个分量归一化为1的常数,并且在[3]中定义SoftL1(x)。通过将每个groundtruth实例的角映射到角图中的单个位置来识别角分布ø(t | k,y,x),简单地丢弃超出边界的角。通过计算地基边界框和采样边界框BS之间的交叉结合(IoU)重叠来识别检测分布α(s | B)。按照标准实践,通过选择具有最大IoU重叠的地面实况边界框来识别回归目标边界框øB
2.3 检测模型
残差神经网络[6]已经在许多大规模数据集上展示了令人印象深刻的回归能力。特别是101层残余网络模型(ResNet-101)在与更快的R-CNN结合时,在ILSVRC2015 [16]和MSCOCO [11]数据集上实现了最先进的性能。作为我们网络的基本模型,我们选择了34层,21M参数ResNet34模型(DeNet-34)和101层,45M参数ResNet-101模型(DeNet-101)。
对于每个基本模型,我们将输入大小修改为512×512像素,移除最终平均合并和完全连接的图层,并附加两个反卷积[13]层,然后是角点检测器。角点检测器负责生成角点分布,并通过在每个空间位置具有Fs特征的学习线性投影生成特征采样图。反卷积[13]层有效地重新引入在基础模型中丢失的空间信息,使得特征图和角落概率分布可以以更大的空间分辨率定义,即64×64,而不是16×16。这导致每个采样边界框的最小尺寸为16×16像素。
在角点检测器之后是稀疏层,其观察由角落检测器识别的角落并生成一组采样边界框(RoI)。RoI用于从特征采样图中提取一组N×N个特征向量。在这种情况下,我们从一组4.2M有效边界框中稀疏地采样N2边界框。通过提取与7×7网格相关联的最近邻采样特征加上边界框宽度和高度来构造特征向量。这产生具有7×7×Fs + 2值的特征。我们发现最近邻采样是足够的,因为特征采样图具有与边界框角相同,相对较高的空间分辨率。最后,特征向量通过相对浅的完全连接网络传播,以产生每个采样RoI的最终分类和微调边界框。
在表1和表2中,我们使用以下定义描述了附加到基本模型的附加层:
Conv:在输入激活上包含一系列2D滤波器。滤波器权重通过正态分布N(0,σ)初始化,其中α2= 2 /(nfnxny),其中nf是滤波器的数量,(nx,ny)是它们的空间形状[5]。每次卷积后都是批量标准化[7],然后是ReLU激活函数。
Deconv:应用学习的反卷积[13](上采样)操作,然后激活ReLU。在这种情况下,它等同于放大两个空间维度然后应用Conv层。

表1.用于DeNet模型的过滤器参数

表2. DeNet:用于DSS对象检测的ResNet派生模型,具有512×512输入图像。线上方基础模型中的图层使用预训练的ResNet-34或ResNet-101 ImageNet 2012分类模型进行初始化。
•拐角:通过softmax函数估算拐角分布并生成采样特征图。
见第2节。
•稀疏:从角分布中识别采样边界框,并从采样要素图中生成固定大小的采样特征。
•分类器:通过softmax函数将激活映射到所需的概率分布,并生成边界框目标。
对于DeNet-34,我们使用ResNet-34基本模型和Fs = 96来生成4706值的特征向量和总共32M参数。DeNet-101型号使用ResNet-101基础模型,并为附加层增加了大约1.5倍的过滤器数量(见表1)。这些变化产生了6274个值的稀疏特征向量和总共69M个参数。
2.3.1 跳过图层变体
作为扩展,我们考虑使用跳过层来扩充DeNet模型。在最近的工作中,跳过层已经证明了分类[6],检测[10]和语义分割[2]的一致性改进,更一般地说,是高速公路[18]和剩余网络[6]的组成部分。在这种情况下,这些层将Deconv层与基本模型中具有相同空间维度的最终层连接起来。我们的实现遵循[10],每个跳过层执行源要素到目标要素尺寸的线性投影,并简单地添加得到的要素图(在激活之前)
2.3.2 广泛变换
在此模型中,我们修改了跳过模型变体,通过添加另一个Deconv和跳过图层,为角落和特征采样贴图使用128×128空间分辨率。我们还将N增加到48以产生2304个RoI。在当前的实现中,由于增加的分类负担和用于识别RoI的CPU限制算法,该方法伴随着相当大的定时成本。通过进一步的工程设计(例如重复数据删除),我们相信这些成本可以降低。
3 实施细节
我们的模型在我们基于Theano的CNN库中实现,称为DeNet。源代码可从以下网址获得:https://github.com/lachlants/denet
3.1 训练方式
在所有实验中,我们使用Nesterov样式SGD [19],初始学习率为0.1,动量为0.9,重量衰减为0.0001(仅适用于权重)。批量大小为128用于两个模型,每次GPU迭代有32个样本。学习率在时期30和时期60除以10,并且总共执行了90个训练时期。请注意,除批量大小更改外,这些超参数与训练原始剩余网络进行分类时使用的超参数相同[6]。没有应用在线硬阴性采矿[17]或其他梯度优化技术,但是,我们观察到一些过度训练Pascal VOC的情况。作为回应,为了增加对阴性样本的暴露,我们在训练期间引入了10%随机生成的边界框样本。
与GoogLeNet [20]非常相似的增强策略被用于改进不同尺度和翻译的模型推广。对于每个样本,在最小尺寸上添加黑色边框以生成方形图像。在测试时,使用双线性采样将该图像缩放到512×512像素,在训练期间选择随机裁剪,其相对于边界图像的面积在(0.08,1.0)之间,并且纵横比在(3 / 4,4 / 3)。如果没有地面真实物体与作物重叠至少50%,则丢弃随机作物并产生新的作物。该过程重复多达10次,并且作为后退,返回整个边界图像。在测试中,生成的裁剪缩放到512×512像素。还采用了随机光度(对比度,饱和度和亮度)和镜面增强[20]。
3.2 采样识别边界框
开发了一种简单的算法来快速搜索非零边界框的角分布:
1.在拐角分布中搜索拐角{k,y,x}∈Cλ其中Pr(t = 1 | k,y,x)> λ
2.对于每个拐角类型,选择最大可能性为CM⊆Cλ的M个拐角
3.通过匹配顶部 - 左侧类型的CM内的每个角落与每个类型的底部 - 右侧,生成一组唯一的边界框。
4.通过等式1计算每个边界框非空的概率。
5.使用顶部 - 右侧和底部 - 左侧类型的角重复步骤2和3。
6.按概率对边界框进行排序,并保持N2最大,以产生采样边界框BS
由于绝大多数拐角在步骤1中被剔除,因此该方法获得了超过天真强力方法的显着加速,即测试每个可能的边界框。
4 结果分析
在本节中,我们将设计与以前发布的模型进行比较。我们注意到,在某些情况下,由于基础模型,数据增强方案和数据集合并的范围很广,因此难以进行applesto-apples比较。特别是,我们注意到SSD使用更大的批量大小,而R-CNN模型具有更大的输入分辨率(平均)。我们所有的DeNet计时结果都是针对单个Titan X GPU(CuDNN 5110)提供的,批量大小为8x,与SSD中使用的设置相同。为简洁起见,我们仅包括三种非实时快速R-CNN模型,原始RPN(VGG),ResNet-101扩展RPN +(ResNet-101)和R-FCN用于比较(在表格中以灰色突出显示) )。我们注意到,由于实施限制,基于RPN的模型每批测试一个图像。

表3.详细说明最大输入图像尺寸,测试时间(BS)的批量大小,激活层数(L)和参数的近似数量的模型概述
在表3中,我们提供了基线模型的广泛概述。我们注意到,尽管层数和参数的数量增加,但DeNet模型获得了更高的评估率(参见第4.2节)。

表4.优化成本超参数{λs,λt,λb},请参见公式2. MAP为Pascal VOC 2007 val数据集提供。

表5.样本边界框与训练数据集和评估率的覆盖范围。

图2. Pascal VOC 2007验证数据集上的MAP,在训练期间具有不同数量的边界框样本(参见图例)和测试(在x轴上显示)。、
4.1 超参数优化
对于以下内容,我们使用了DeNet-34模型,并在Pascal VOC 2007列车和Pascal VOC 2012 trainval(14,041图像)上进行了培训,测试我们使用Pascal VOC 2007 val(2,510张图像)。所有实验都使用相同的DeNet-34模型初始化。我们应用了第3.1节中描述的培训程序,批次大小为96。
在表4中,我们对拐角和边界框回归成本参数λt和λb进行了粗略搜索。通过设定Δs= 1,Δt= 100和Δb= 1来获得最佳结果,这些应用于所有后续实验中。接下来,我们使用不同数量的采样边界框来研究模型行为。特别是,我们训练了一组N = {8,12,16,24,32}的模型。在测试时,我们采用这些模型中的每一个并将N从8变为32以产生图2。
在表5中,我们提供了模型评估率和覆盖率(基于IoU> 0.5的抽样边界框的基础事实的百分比)在第2节中描述的RoI估计器获得的训练集上。正如预期的那样,我们观察到了一致的当使用大量采样边界框进行训练时,改善MAP,收益递减,超过576。一般而言,我们观察到改进的MAP,其中以评估率为代价增加了测试边界框。对于后续实验,我们为训练和测试设置N = 24。
4.2 时间分解和评估率
在表6中,我们粗略分析了两种DeNet模型的时间。我们将时间分为4个顺序执行阶段:
1.估计角落:图像被上传到GPU并通过基础网络馈送,生成角落分布和采样特征图。角分布从GPU传输到CPU内存。
2.生成RoI:从角分布生成采样边界框(RoI)。
3.分类RoI:执行最终分类CNN,分类分布和边界框回归输出从GPU传输到CPU。
4.估计实例:对最终检测命中运行非最大抑制,从而为每个图像生成重复数据删除的检测列表。
我们观察到绝大部分时间都花在评估基础网络上以产生角落。此外,请注意,CPU绑定的Generate RoI阶段时序可能会在不同的样本之间发生显着变化,并且可能需要根据应用进行额外调整。此外,我们希望强调DeNet模型的一些重要特征,使其明显快于大多数其他基线模型:
•解卷积:通过解卷积层增加空间信息,而不是R-FCN和SSD中使用的不良修改模型。该方法在模型的后期显着引入空间信息,大大提高了评估率。
•快速RoI功能:通过简单的最近邻采样方法提取特征,将特征读取的数量限制为每个RoI 49个。一些RPN变体使用汇集,每个RoI为49-580。
•输入图像尺寸:DeNet将所有图像缩放为512x512像素,而基于RPN的方法使用高达1000x600像素的变化输入尺寸。
•批处理:我们的模型每批次测试8x样本(与SSD相同)。这提高了GPU利用率。
随着时间的这些改进,我们能够以相同的评估率使用更具表现力的基础模型。
4.3 ROI覆盖率比较
在表7中,我们提供了前300个RoI对RPN,R-FCN和DeNet方法所获得的覆盖率。我们观察到,由于RoI数量相对较少,RPN(VGG)和R-FCN在低IoU阈值时提供更好的覆盖,但随着IoU的增加,DeNet模型提供了显着改善的覆盖范围。

表7.使用300个样本边界框(RoI提议)对Pascal VOC 2007测试的覆盖率。
我们注意到RPN / R-FCN在其RoI提议网络中使用了边界框回归和重复数据删除方法,这些因素提高了覆盖范围,提议数量较少。如以下部分所示,DeNet RoI覆盖率结果不一定转化为完整模型的缩减MAP,其中包括NMS和边界框回归,在较低的IoU阈值。
4.4 MSCOCO
Context [11]数据集中的Microsoft公共对象包含分布在80个类中的82K训练和40K验证图像。为了进行测试,数据集包括80K测试数据集,用户已知的20K图像子集形成test-dev2015集合,20K图像的未知子集形成test2015,仅允许5次评估。由于数据集大小,类的数量和图像中对象实例的相对较小的尺寸,与Pascal VOC挑战相比,MSCOCO是一个相当困难的数据集。MSCOCO的主要评估度量是MAP与检测匹配参数IoU = 0.5到IoU = 0.95的积分。
与Pascal数据集相比,此度量标准更强调本地化性能。我们发现DeNet-101的设置Δt= 50对于收敛是必要的,这可能是由于与验证实验相比平均每个图像中存在更多的角。使用2×Tesla P100 GPU进行DeNet-34培训需要4天,而使用4×Tesla P100 GPU进行DeNet-101培训需要6.5天。
在表8中,我们在test-dev2015上提供了我们模型的精度和召回结果。DeNet模型显示出优于其他高评估率实施的明显优势,例如 我们的实时DeNet-34型号以相同的评估速度击败SSD300 6.2%MAP,SSD512高出2.6%,超过评估率的两倍。
DeNet-101模型进一步发挥了这一优势,仅通过利用多尺度评估和边界框细化的非常慢的竞争风格RPN +模型进行击败。在撰写本文时,DeNet-101模型获得的结果足以进入MSCOCO竞赛排行榜的前10名,该排行榜不考虑评估时间。跳过模型变体不断改进中小型对象的性能(参见表中小型和中型区域对象的AR和AP),对大型对象和评估率的成本较低。宽变体以评估率为代价进一步改进了小物体检测和精细物体定位。在MSCOCO test-std2015上获得几乎相同的结果,例如 我们分别得到了DeNet-34和DeNet-101的MAP @ [0.5:0.95],分别为29.3%和31.7%。分析表明,我们的优势源于改进的大对象检测和细粒度对象定位性能,如MAP@IoU=0.75结果所示。我们认为这是我们的方法产生的更大范围的候选RoI的结果,例如 vanilla DeNet模型可以从一组可能的4.2×106边界框中进行选择,而SSD使用2.5×104。利用YOLO和RPN衍生模型中使用的密集评估方法,利用如此大的候选边界框可能会难以处理。
4.5 Pascal VOC 2007
我们将来自Pascal VOC 2007和2012 [1](表中为07 + 12)的trainval样本结合起来,生成了16,551个训练样本。为了测试,我们使用含有4,991个样品的Pascal VOC 2007测试。我们注意到该数据集比MSCOCO小得多,因此更容易受到过度训练和图像增强方法的影响。DeNet-34使用2×Tesla P100s的培训时间为13小时,使用4×Tesla P100s的DeNet-101培训时间为20小时。在表9中,我们提供MAP和时序结果。我们观察到跳过层变体DeNet-34在SSD300的峰值MAP上改进了1.6%和20Hz。
在近实时域中,DeNet-101以更高的评估速率匹配SSD512。

表8.在test-dev2015数据集上评估的MSCOCO平均精度(AP)和平均召回(AR)结果。

表9. Pascal VOC 2007平均精确度和时间。
4.6 Pascal VOC 2012
在本实验中,我们将来自Pascal VOC 2007的trainvaltest和来自Pascal VOC 2012的trainval [1](表中的07 ++ 12表示)结合起来,生成21,503个训练样本。Pascal VOC 2012测试服务器对10,991个样品评估测试分数。对于此数据集,DeNet34型号与SSD300匹配,但由于未知原因,DeNet-101显示的结果低于SSD512。作为参考,我们注意到DeNet-101获得的结果与其他基于ResNet-101的模型RPN(ResNet)几乎相同,评估率提高了一个数量级。
使用2×Tesla P100s的DeNet-34培训时间为18小时,使用4×特斯拉P100s的DeNet-101培训时间为28小时。

表10. Pascal VOC 2012平均精度和时间。
5 结论
在这项工作中,我们描述了一个用CNN进行稀疏估计的框架,并提出了一种新颖的感兴趣区域检测器和分类模型,它减少了手工工程,并通过实时和接近实时的方式提高了最先进的检测性能。利用首先在语义分割的背景下描述的反卷积和跳过层,我们展示了一个高度计算有效的模型,具有紧密耦合的RoI,类预测和边界框回归。我们提供进一步的证据表明跳过连接可以持续提高中小型物体的检测率。虽然宽模型变体突出了角点图解析对于中小型物体的重要性,并为未来发展提供了自然途径。
分析表明,当需要更精细的对象定位时,我们的模型表现得特别好。我们提出改进的定位是由于使用我们的稀疏采样方法可行的更大的可能采样边界框集合,即4.2×106,而SSD512和RPN小于2.5×104。此功能允许模型可能选择一个边界框(在边界框回归之前),这明显更接近基本事实。此外,由于我们不再定义一组参考边界框,这种方法减少了手工工程要求,并且可以很好地适应利用具有非常大范围的纵横比和尺度的边界框的问题。旋转变形或非刚性物体。
浙公网安备 33010602011771号