Aggregated Residual Transformations for Deep Neural Networks(ResNeXt)
-
会议:CVPR 2017
-
作者: Xie, Saining; Girshick, Ross; Dollár, Piotr; Tu, Zhuowen; He, Kaiming
-
贡献:
-
ResNeXt(ILSVRC 2016第二)
-
新的维度Cardinality(基数),和宽度、深度并列的第三维
1 动机
1.1 第三维:Cardinality
-
提高精确度的两种方法——加深或加宽,都会导致参数量增加
-
提出第三维Cardinality,在限制参数量情况下增加精度
2 方法
2.1 堆叠网络
2.1.1 借鉴VGG思想,堆叠重复结构加深网络
2.1.2 two rules:
-
产生相同大小的特征图, 共享超参数
-
特征图降采样大小减半, 特征图数量翻倍
2.2 split-transform-merge
-
借鉴Inception思想:通过设计拓扑结构,达到大 深网络的表示能力
|
简单神经元
|
aggregated transformations
|
Cardinality也就是公式中的C
|
|
|
splitting: X->xi
transforming:wixi
aggregating:∑
|
split
transform
aggregate
|
2.3 两种变形
2.3.1 图
|
|
|
|
和Inception-ResNet关系:
|
分组卷积最早在AlexNet出现,在多GPU训练
|
2.3.2 变形的前提条件
-
depth≥3。如果 depth=2,会变成宽, 稠密模块。如下图
-
Ti需要是homogeneous(同质)
2.4 模型复杂度
-
为了保持复杂度不变,改变Cardinality C, 需要改变另一个维度
-
选择宽度,因为不会被输入输出影响
-
下图ResNet和RexNet模型复杂度基本相同,并且由于2.12中的rules, 这种等价关系 有效
3 实验结果
3.1 Cardinality vs Width
-
随着Cardinality 增加, 验证集错误率持续下降
-
并且训练集错误率也下降,说明性能增强是由于表示能力,而不是正则化效果
3.2 增加 Cardinality vs Depth/Width
3.2.1 三种方法增加模型复杂度(ResNet 101, ResNext 101)
-
depth(ResNet 200)
-
width(ResNet 101,Wider)
-
Cardinality()
3.2.2 实验结果
-
增加Cardinality 比 其他更好
-
32x4d ResNet-101 只有 ResNet-200 一半复杂度, 精确率确更高
3.3 残差连接
-
提升3.9%
-
有利于优化
3.4 性能
|
ResNeXt
|
0.95s
|
|
ResNet
|
0.70s
|
3.5 与state-of-art对比
3.6 CIFAR(Cardinality vs width)
-
Cardinality比 width提升更高效

浙公网安备 33010602011771号