Aggregated Residual Transformations for Deep Neural Networks(ResNeXt)

  • 会议:CVPR 2017
  • 作者: Xie, Saining; Girshick, Ross; Dollár, Piotr; Tu, Zhuowen; He, Kaiming
  • 贡献:
    • ResNeXt(ILSVRC 2016第二)
    • 新的维度Cardinality(基数),和宽度、深度并列的第三维

1 动机

1.1 第三维:Cardinality

  • 提高精确度的两种方法——加深或加宽,都会导致参数量增加
  • 提出第三维Cardinality,在限制参数量情况下增加精度

2 方法

2.1 堆叠网络

    2.1.1 借鉴VGG思想,堆叠重复结构加深网络

    2.1.2 two rules:

    • 产生相同大小的特征图, 共享超参数
    • 特征图降采样大小减半, 特征图数量翻倍

2.2 split-transform-merge

  • 借鉴Inception思想:通过设计拓扑结构,达到大 深网络的表示能力
简单神经元
aggregated transformations
 
 
Cardinality也就是公式中的C
splitting: X->xi
transforming:wixi
aggregating:∑
split
transform
aggregate

2.3 两种变形

    2.3.1 图

 
和Inception-ResNet关系:
  • 结构类似
  • 但不同路之间 拓扑结构相同
  • 用分组卷积splitting
分组卷积最早在AlexNet出现,在多GPU训练
  • 与ResNet:
    • 结构相似
    • 但更宽,连接稀疏

    2.3.2 变形的前提条件

    • depth≥3。如果 depth=2,会变成宽, 稠密模块。如下图

    • Ti需要是homogeneous(同质)

2.4 模型复杂度

  • 为了保持复杂度不变,改变Cardinality C, 需要改变另一个维度
    • 选择宽度,因为不会被输入输出影响
  • 下图ResNet和RexNet模型复杂度基本相同,并且由于2.12中的rules, 这种等价关系 有效

 

3 实验结果

3.1 Cardinality vs Width

  • 随着Cardinality 增加, 验证集错误率持续下降
  • 并且训练集错误率也下降,说明性能增强是由于表示能力,而不是正则化效果

3.2 增加 Cardinality vs Depth/Width

3.2.1 三种方法增加模型复杂度(ResNet 101, ResNext 101)

  • depth(ResNet 200)
  • width(ResNet 101,Wider)
  • Cardinality()

3.2.2 实验结果

  • 增加Cardinality 比 其他更好
  • 32x4d ResNet-101 只有 ResNet-200 一半复杂度, 精确率确更高

3.3 残差连接

  • 提升3.9%
  • 有利于优化

3.4 性能

ResNeXt
0.95s
ResNet
0.70s

3.5 与state-of-art对比

3.6 CIFAR(Cardinality vs width)

  • Cardinality比 width提升更高效

3.7 COCO目标检测

 
posted @ 2020-09-06 15:47  意志  阅读(266)  评论(0)    收藏  举报