Aggregated Residual Transformations for Deep Neural Networks(ResNeXt)

会议:CVPR 2017
作者: Xie, Saining; Girshick, Ross; Dollár, Piotr; Tu, Zhuowen; He, Kaiming
贡献:

ResNeXt（ILSVRC 2016第二）
新的维度Cardinality（基数），和宽度、深度并列的第三维

1 动机

1.1 第三维：Cardinality

提高精确度的两种方法——加深或加宽，都会导致参数量增加
提出第三维Cardinality，在限制参数量情况下增加精度

2 方法

2.1 堆叠网络

2.1.1 借鉴VGG思想，堆叠重复结构加深网络

2.1.2 two rules:

产生相同大小的特征图, 共享超参数
特征图降采样大小减半, 特征图数量翻倍

2.2 split-transform-merge

借鉴Inception思想:通过设计拓扑结构,达到大深网络的表示能力

简单神经元	aggregated transformations

	Cardinality也就是公式中的C
splitting: X->xi transforming:wixi aggregating:∑	split transform aggregate

2.3 两种变形

2.3.1 图

和Inception-ResNet关系：

结构类似
但不同路之间拓扑结构相同

用分组卷积splitting

分组卷积最早在AlexNet出现,在多GPU训练

与ResNet：

结构相似
但更宽，连接稀疏

2.3.2 变形的前提条件

depth≥3。如果 depth=2，会变成宽，稠密模块。如下图

Ti需要是homogeneous（同质）

2.4 模型复杂度

为了保持复杂度不变,改变Cardinality C, 需要改变另一个维度

选择宽度,因为不会被输入输出影响

下图ResNet和RexNet模型复杂度基本相同,并且由于2.12中的rules, 这种等价关系有效

3 实验结果

3.1 Cardinality vs Width

随着Cardinality 增加, 验证集错误率持续下降
并且训练集错误率也下降,说明性能增强是由于表示能力,而不是正则化效果

3.2 增加 Cardinality vs Depth/Width

3.2.1 三种方法增加模型复杂度(ResNet 101, ResNext 101)

depth(ResNet 200)
width(ResNet 101,Wider)
Cardinality()

3.2.2 实验结果

增加Cardinality 比其他更好
32x4d ResNet-101 只有 ResNet-200 一半复杂度, 精确率确更高

3.3 残差连接

提升3.9%
有利于优化

3.4 性能

ResNeXt	0.95s
ResNet	0.70s

3.5 与state-of-art对比

3.6 CIFAR(Cardinality vs width)

Cardinality比 width提升更高效

3.7 COCO目标检测

posted @ 2020-09-06 15:47 意志阅读(266) 评论(0) 收藏举报

刷新页面返回顶部