0621 每日文献阅读 打卡

Read Data: 0620

Publication:  网络

Title: RepMLP: Re-parameterizing Convolutions into Fully-connected Layers for Image Recognition

Participants: Xiaohan Ding ,Xiangyu Zhang ,Jungong Han,Guiguang Ding

Aim:

本文重新讨论了全连接(FC)层,为传统的ConvNet提供全局捕捉和位置感知。

Research Question:

相比卷积层,全连接层更为高效,可以进行更好的长期依赖与位置模式建模,但在局部结构提取方面较差,因此通常不太适合于图像识别。

在某些情况下,我们直接使用FC作为特征映射之间的转换来代替conv。通过展平特征图,通过FC将其输入,然后重新调整,我们可以享受位置感知(因为它的参数与位置相关)和全局捕捉(因为每个输出点与每个输入点相关)。无论从实际速度还是理论FLOPs来看,这种运算都是高效的。

Method:

本文提出一种结构重参数技术,它为全连接层添加了局部先验信息以使其可以进行强有力的图像识别。在训练阶段,我们在RepMLP内部构建了卷积层,而在推理阶段,我们将这些卷积层合并到全连接层内。

具体来说:我们在训练过程中构造平行于FC的conv和batch normalization (BN)层,然后将训练后的参数合并到FC中,以减少参数的数量和推理延迟。在此基础上,我们提出了一种重新参数化的多层感知器(RepMLP)。如图1所示,训练时间RepMLP有FC层、conv层和BN层,但可以等效转换为只有三个FC层的推理时间块。结构重参数化的意义在于训练时间模型有一组参数,推理时间模型有另一组参数,我们将训练时间模型的参数转化为推理时间模型的参数。

 

Results:

在CIFAR数据集上,简简单单的MLP模型即可取得与CNN非常接近的性能。通过将RepMLP插入到现有CNN中,我们在ImageNet数据集上提升ResNets模型精度达1.8%,在人脸识别任务上提升2.9%,在Cityscapes提升2.3%mIoU精度且具有更低的FLOPs。

Discussion:

该发现说明:全连接层的全局表达、位置感知能力与卷积的局部结构提取能力的组合能够以更快的速度在平移不变任务(比如语义分割)、图像对齐+位置模式相关任务(比如人脸识别)上的性能。

Conclusion:

一个FC比一个conv具有更强的表示能力,因为后者可以被视为一个具有共享参数的稀疏FC。然而,一个FC没有局部先验,这使得它不适合图像识别。在本文中,我们提出了RepMLP,它利用了FC的全局捕捉和位置感知,并通过一种简单的平台无关的算法重新参数化卷积,将局部先验整合到FC中。从理论角度看,将卷积网络视为FC的退化案例,开辟了一个新的视角,可以加深我们对传统卷积网络的理解。

Further:

需要注意的是,RepMLP是为主要关注推断速度和准确性,而不太注重参数数量的应用程序场景设计的。

Ref:

本文贡献:

1提出利用全连接层的全局建模、位置感知能力,并加上局部先验,使其适用于图像识别任务;

2提出一种简单的、平台不可知的、可微分算法用于将并行卷积、BN合并到全连接层中,使其具有局部先验且不造成任何推理耗时增加;

3提出一种高效模块RepMLP,并在多个视觉任务上证实了其有效性。

问题:对分辨率以及参数要求较大。

 

 

posted on 2021-06-21 11:27  Lf&x&my  阅读(70)  评论(0)    收藏  举报