Inception-v3的设计思路小结

Posted on 2018-03-29 15:10 AYE89 阅读(10620) 评论(0) 收藏举报

一、网络更深、更宽带来的问题

参数太多，若训练数据集有限，容易过拟合；
网络越大计算复杂度越大，难以应用；（内存和计算资源）
网络越深，梯度越往后穿越容易消失，难以优化模型。

解决：

如何减少参数（且保证性能）：使用更小的核，比如5x5 换成 2个3*3；使用Asymmetric方式，比如3x3 换成 1x3和3x1两种；
如何减少computational cost：Inception结构，将全连接甚至一般的卷积都转化为稀疏连接；
如何解决“梯度消失”：BN层

所以，Inception系列的网络是“很窄很深”的结构。

二、设计原则

2.1避免特征表示瓶颈，尤其是在网络的前面。要避免严重压缩导致的瓶颈。特征表示尺寸应该温和的减少，从输入端到输出端。特征表示的维度只是一个粗浅的信息量表示，它丢掉了一些重要的因素如相关性结构。
2.2高纬信息更适合在网络的局部处理。在卷积网络中逐步增加非线性激活响应可以解耦合更多的特征，那么网络就会训练的更快。
2.3空间聚合可以通过低纬嵌入，不会导致网络表示能力的降低。例如在进行大尺寸的卷积（如3*3）之前，我们可以在空间聚合前先对输入信息进行降维处理，如果这些信号是容易压缩的，那么降维甚至可以加快学习速度。
2.4平衡好网络的深度和宽度。通过平衡网络每层滤波器的个数和网络的层数可以是网络达到最佳性能。增加网络的宽度和深度都会提升网络的性能，但是两者并行增加获得的性能提升是最大的。

模型结构

Inception-v2把7x7卷积替换为3个3x3卷积。包含3个Inception部分。第一部分是35x35x288，使用了2个3x3卷积代替了传统的5x5；第二部分减小了feature map，增多了filters，为17x17x768，使用了nx1->1xn结构；第三部分增多了filter，使用了卷积池化并行结构。网络有42层，但是计算量只有GoogLeNet的2.5倍。