7.3.2 NiN模型
可以发现\(\text{AlexNet}\)和VGG最后面的网络都是全连接层,但是有如下问题
基本上所有参数都集中在最后的全连接层(这样导致计算慢内存大还很容易过拟合,比如我们期望三层全连接层学习完所有特征,但是一层就把所有特征学习完了)
所以我们要替换掉最后的全连接层。我们可以使用\(1\times 1\)的卷积层来替换,这就是NiN做的事(我们说\(1\times 1\)卷积层等价于全连接层,那么单从这句话上看,似乎没有得到改进。实际上我们可以去比较一下\(1\times 1\)的卷积层和全连接层的区别,前者是学习同一像素不同通道之间的关系,而后者是将所有像素所有通道结合在一起学习,也就是说前者更简单)
NiN架构如下
最后的“输入通道是类别数”的意思就是对每一个通道都拿出一个值,就把这个值当做某个类别的预测,然后做\(\text{Softmax}\)