IEEE TPAMI 2021: MobileSal: Extremely Efficient RGB-D Salient Object Detection

IEEE TPAMI 2021: MobileSal: Extremely Efficient RGB-D Salient Object Detection

存在问题

移动网络在特征表示方面不如笨重的网络强大,如果适当利用彩色图像的深度信息,可以增强与SOD相关的特征表示。

主要贡献

  • 提出了一种隐式深度恢复(IDR)技术来增强移动网络对RGB-D SOD的特征表示能力。(IDR仅在训练阶段采用,在测试过程中省略,因此预测成本很低。)

    仅在最粗略的级别上进行RGB和深度信息融合,因为这样小的特征分辨率(即1/32比例)对于降低计算成本至关重要。

  • 提出了紧凑金字塔细化(CPR)方法,用于有效的多级特征聚合,以获得边界清晰的显著对象。

3 实现方法

3.1 概述

RGB流

我们使用MobileNetV2[17]作为我们方法的主干。为了使其适应SOD任务,我们从主干中删除了全局平均池层和最后一个完全连接的层。对于RGB流,每个阶段后面都有一个步长为2的卷积层,因此,在每个阶段之后,特征贴图将被降采样为半分辨率。为方便起见,我们将五个阶段的输出特征映射分别表示为C1、C2、C3、C4、C5,步幅分别为2、22、23、24、25。

深度流

与RGB流类似,深度流也有五个具有相同步幅的阶段。由于深度贴图包含的语义信息少于相应的RGB图像,因此我们构建了一个轻量级深度网络,其卷积块数少于RGB流。每个阶段只有两个反向剩余块(IRB)[17]。这种设计降低了计算复杂度,符合高效RGB-D SOD的目标。在每个IRB中,我们首先通过1×1卷积沿通道维度将特征映射扩展m次,然后使用相同数量的输入和输出通道进行深度可分离的3×3卷积[16]。然后,通过另一个1×1卷积将特征通道压缩到1/M。这里,每个卷积之后是批标准化(BN)[62]和ReLU[63]层,但最后的1×1卷积只有一个BN层除外。反向残差块的最终输出是初始输入和由上述三个顺序卷积生成的输出的元素级总和。对于每个阶段的第一层,深度可分离卷积的步长设置为2,如果需要,增加隐藏特征通道的数量。深度流五个阶段的输出特征图表示为D1、D2、D3、D4、D5,前四个阶段分别有16、32、64、96个通道。D5和C5具有相同数量的通道和相同的步幅。

图2所示,利用RGB和深度流的输出,我们首先融合提取的RGB特征C5和深度特征D5,生成RGB-D特征CD5。提出的IDR技术从C1、C2、C3、C4、CD5中恢复深度图,该深度图由输入深度图监督,以加强特征表示学习。对于显著性预测,我们以CPR模块为基本单元设计了一个轻量级解码器。解码器在底层的输出是最终预测的显著性图。更多细节见以下章节。

image-20211219230652443

图2:我们仅在最粗糙的层次上融合RGB和深度信息,然后使用CPR有效地进行多尺度聚合。IDR分支以一种无计算的方式增强了移动网络学习到的功能较弱的功能。

3.2 RGB和深度特征的跨模态融合(CMF)

深度贴图显示彩色图像的空间线索,这有助于区分前景对象和背景,特别是对于具有复杂纹理的场景。正如先前的研究[8]、[9]、[14]、[22]、[46]、[48]所证明的那样,正确的RGB和深度特征融合对于精确的RGB-D是必不可少的。我们在这里的主要考虑是确保我们的方法的高效率。我们没有在多个级别进行融合[8]、[9]、[14]、[22]、[46]、[48]、[64],而是只在最粗糙的级别融合RGB和深度特征,因为较小的特征分辨率导致较低的计算成本。

根据以上分析,我们只融合了RGB特征图C5和深度特征图D5。为此,我们设计了一个重量轻的交叉模态融合(CMF)模块,如图2所示。直观上,语义信息主要存在于RGB图像中。

深度贴图传达了深度平滑区域的先验信息,这些区域近似表示完整对象或材料的形状和结构。因此,我们采用深度特征(如门)通过乘法增强RGB语义特征,这可以看作是一种强正则化。请注意,元素级添加或连接只能通过平等对待特征来聚合两个特征映射,这与我们的目标是正交的。§4.3中的实验也证明了我们的假设。

具体而言,我们首先将RGB和深度特征与上述IRB相结合,以导出过渡RGB-D特征映射T,其可表示为

image-20211220194611232

其中和⊗是元素乘法运算符。同时,我们使用一个全局平均池(GAP)层5来获得一个特征向量,然后使用两个完全连接的层来计算RGB注意向量,如

image-20211220194632633

其中FC和ReLU分别表示完全连接和ReLU层。FC1和FC2的输出通道数与输入通道数相同。σ表示标准的sigmoid函数。在不计算v的情况下,v、T和D5的乘法被输入IRB,如

image-20211220194737112

其中CD5表示CMF模块的输出特征图。注意,在乘法之前,Vis复制到与T相同的形状。等式(3)通过乘以D5再次过滤RGB语义特征,通道注意用于重新校准融合特征。在RGB和深度特征融合后,我们可以导出主干特征,包括RGB特征C1、C2、C3、C4和融合的RGBD特征CD5。

3.3 隐式深度恢复(IDR)

众所周知[16]–[19],轻量级骨干网络在特征表示学习方面不如笨重的网络强大。为了保证RGB-D SOD的准确性,我们考虑加强移动网络的表征学习。我们观察到,深度贴图传达了通常表示对象、对象部分或平滑背景的深度平滑区域,因为直观地说,对象或连接的填充区域通常具有相似的深度。这种观察促使我们使用深度图作为额外的监督源来指导表征学习,这将有助于移动网络抑制对象或连接材料区域内的纹理变化,并突出它们之间的差异。这样,突出物体和背景之间的对比度也会增强。基于这一思想,我们设计了隐式深度恢复(IDR)技术。在这里,我们使用“隐式”一词,因为IDR仅在培训阶段采用,在测试过程中省略,从而使其在实际部署中不需要计算。

我们继续介绍如何使用C1、C2、C3、C4、CD5进行上述辅助监控。如图3(a)所示,IDR的管道很简单,即,只需将多级特征映射串联起来,然后将其融合。具体地说,我们首先应用1×1卷积来将C1、C2、C3、C4、CD5压缩到相同数量的信道,即256。然后,将生成的要素贴图调整为与asC4相同的大小,然后将其串联。1×1卷积将级联特征映射从1280个通道更改为256个通道,以节省计算成本。接下来,我们按照四个顺序IRB融合多层次特征,从而获得强大的多尺度特征。最后,一个简单的1×1卷积将融合后的特征映射转换为单个通道。通过标准的sigmoid函数和双线性上采样,我们可以获得与输入相同大小的恢复深度图。IDR的训练损失采用众所周知的SSIM度量[65]来测量恢复深度地图和输入Dg之间的结构相似性,可以写成

image-20211220194929199

其中SSIM使用默认设置。请注意,在测试过程中省略了上述操作,以使IDR自由。

image-20211220205104669

图3.IDR和CPR。(a)IDR分支加强了移动主干网功能较弱的功能。(b) CPR模块能有效地对多层次深度特征进行聚合,D-Conv表示深度可分离卷积。

3.4 紧凑的金字塔细化

人们普遍认为主干网中的高级特征包含语义抽象特征,而低级特征则传达细粒度细节。为了获得准确的SOD,必须充分利用高水平和低水平特征。关于这个主题有很多文献[8]、[9]、[13]、[14]、[22],但是现有的方法通常在没有考虑效率的情况下设计麻烦的解码器。在这里,我们的解码器不仅应该有效地融合多级特征,而且应该尽可能地高效。

该译码器使用紧凑金字塔细化(CPR)模块作为基本单元。为了提高效率,CPR使用1×1和深度可分离卷积[16],而不是以前方法[12]-[14],[22]中的普通卷积。由于多尺度特征表现出多尺度表示,高尺度对应于粗尺度,反之亦然,因此多尺度学习对于多尺度特征融合是必要的。因此,CPR采用轻量级多尺度学习策略来增强这种融合。假设CPR模块的输入为X。如图3(b)所示,CPR首先应用1×1卷积,以将通道数扩展MTIME。然后,将三个膨胀率为1,2,3的3×3深度可分离卷积并联起来进行多尺度融合。这可以表述为

image-20211220195107260

式中,d1、d2和d3分别为扩张率,即这里的1、2、3。BN是批次标准化的缩写[62]。使用1×1卷积将通道压缩到与输入相同的数量,即:。,

image-20211220195211018

使用剩余连接进行更好的优化。将式(2)中的注意机制应用于X,以计算注意向量v',因此

image-20211220195244418

等式(7)使用全局上下文信息重新校准融合特征。

如图2所示,在每个解码器阶段,来自顶部解码器和相应编码器阶段的两个特征映射首先分别使用1×1卷积将其信道数减少一半。然后连接结果,然后是用于特征融合的CPR模块。通过这种方式,我们的轻量级解码器从上到下聚合了多级功能。

3.5混合损耗函数

在每个译码器阶段,我们通过依次添加1×1卷积和单通道、sigmoid函数以及双线性上采样到CPR模块的输出来预测显著性图,如图2所示。因此,我们可以分别导出五个阶段的预测显著性图Pi(i=1,2,···,5)。假设地面真值显著性图为G。每侧输出的损失可计算为

image-20211220195519240

BCE表示二元交叉熵损失函数:

image-20211220195542521

其中“·”表示点积行动,掷骰子掷骰子的损失[66]:

image-20211220195609320

其中||·||表示“1”范数。通过深度监督和IDR,培训损失可表述为:

image-20211220195626138

式中λ为平衡重。在测试阶段,p1是最终预测的显著性图。

4 实验

我们首先在§4.1中提供了实验装置。然后,我们比较§4.2中最先进的RGB-D SOD方法,并在§4.3中进行全面的消融研究。我们还讨论了§4.4中IDR的应用。

posted @ 2021-12-21 12:00  wickyan  阅读(394)  评论(0)    收藏  举报