卷积神经网络(CNN)从理论走向实践、从基础迈向前沿。这个不再讲述基础的卷积和池化操作,而是系统性地回顾和剖析了在ImageNet大规模视觉识别挑战赛(ILSVRC)的推动下,一系列定义了深度学习发展方向的里程碑式架构。
本质上是学习如何设计、优化和训练深度神经网络的“内功心法”。起码哈哈哈以后能和别人吹两句!
一、 历史背景与核心驱动力:ImageNet竞赛
- ImageNet?就是什么它是一个包括超过1400万张手工标注图像的数据集,涵盖2万多个类别。自2010年开始,每年举办的ILSVRC竞赛要求参赛模型在1000个类别、约120万张训练图像上学习,并在5万张验证图像和10万张测试图像上进行评估。
- 为什么它如此重点?
- 规模空前:其巨大的数据量使得训练大型模型成为可能和必要,避免了小数据上的过拟合。
- 统一基准:它为全球的研究团队提供了一个公平、可比较的竞技舞台,极大地加速了创新。
- 指向标:ILSVRC的年度优胜模型代表了当时监督学习在视觉任务上的最高水平,其设计思想迅速成为业界标准。
- 本章的模型大多是ILSVRC的冠军或极具影响力的作品,它们的演进清晰地展示了深度学习手艺发展的脉络。
二、 核心模型架构深度分解
1. AlexNet (2012年冠军) - 深度学习的“破冰船”
- 历史意义:2012年,AlexNet以Top-5错误率15.3%的惊人成绩夺冠,比第二名(传统方法)的26.2%错误率降低了近一半。这是一个历史性的转折点,彻底点燃了深度学习的热潮。
- 核心结构:
- 本质上是更深、更大的LeNet。它包含5个卷积层(部分后接最大池化层)和3个全连接层。
- 首次成功采用ReLU作为激活函数,消除了Sigmoid/Tanh函数在深层网络中的梯度消失问题,极大地加快了训练速度。
- 为缓解过拟合,引入了Dropout技术,在训练时随机“关闭”一部分神经元,强制网络学习更鲁棒的特征。
- 使用了数据增强(如随机裁剪、水平翻转)来 artificially 扩大训练集。
- 首次证明了GPU并行训练(使用2块GTX 580)大规模神经网络的可行性。
- 启示: 证明了深度和规模是提升性能的关键,并提供了训练深层网络的一整套初步技术。
2. VGG (2014年亚军) - 深度与规整的哲学
- 核心思想:在AlexNet证明深度高效后,VGG团队系统地探索了网络深度与性能的关系。其设计哲学是构建更深度、更规整的网络。
- 核心结构:
- 全部使用小的3x3卷积核:就是。这是VGG最重要的贡献。两个3x3卷积层堆叠,其感受野相当于一个5x5卷积层;三个堆叠则相当于一个7x7卷积层。这样做的好处
- 参数更少:3个3x3卷积的参数为3*(3²C²)=27C²,而1个7x7卷积的参数为7²C²=49C²(假设输入输出通道数均为C)。
- 非线性更强:三层结构引入了三次ReLU激活,而非一次,使决策函数更具判别力。
- 极致的规整化:网络由一系列相同的“块”堆叠而成,每个块由若干3x3卷积层和一个2x2最大池化层构成。这种设计非常简洁、优雅。
- 常见的配置有VGG-16和VGG-19(数字代表带权重的层数)。
- 全部使用小的3x3卷积核:就是。这是VGG最重要的贡献。两个3x3卷积层堆叠,其感受野相当于一个5x5卷积层;三个堆叠则相当于一个7x7卷积层。这样做的好处
- 启示: 网络的深度至关重要,而使用小而深的卷积块是构建深度网络的有效且高效的方式。VGG的规整结构使其十分易于迁移学习。
3. NiN (Network in Network) - 微观结构的革新
- 核心思想:挑战传统卷积层是线性卷积后接非线性激活的简单组合这一设计。它希望在每个局部感受野内构建一个更强大的“微型网络”。
- 核心结构:
- MLP卷积层/1x1卷积:NiN的革命性贡献。它使用一个共享权重的就是这小型多层感知机(MLP)来处理每个局部感受野。这个MLP实际上就是1x1卷积层。
- 1x1卷积的机制:
- 跨通道信息集成:可以在深度方向(通道维度)上对特征进行线性组合,实现降维或升维。
- 增加非线性:1x1卷积后接ReLU,为网络引入了额外的非线性能力。
- 全局平均池化:NiN彻底移除了容易导致过拟合的全连接层。在最后一个卷积层,它为每个输出类别生成一个特征图,然后直接对每个特征图取平均值,作为该类别的置信度分数。
- 启示:1x1卷积成为了现代CNN架构中不可或缺的组件,用于控制计算量和通道数。全局平均池化也成为许多轻量级网络的首选。
4. GoogLeNet (Inception v1, 2014年冠军) - 宽度与并行化
- 核心思想:与其纠结于选择卷积核的最佳尺寸(1x1? 3x3? 5x5?),不如让网络自己选择。Inception架构在同一层上并行地使用多种尺寸的卷积核,从而捕获不同尺度的特征。
- 核心结构 - Inception 模块:
- 初始设计(Naive Version):并行包含1x1、3x3、5x5卷积和3x3最大池化四条路径,继而将所有输出在通道维度上拼接起来。但计算成本巨大。
- 智慧设计(With Dimension Reduction):在3x3、5x5卷积和池化操控之前,先运用1x1卷积(借鉴NiN)进行降维将NiN思想完美应用的典范。就是,大幅减少计算量。这
- 网络由多个这样的Inception模块堆叠而成。
- 启示:成功引入了**“宽度”** 的概念,通过并行结构和降维技术,在增加模型容量的同时,巧妙地控制了计算复杂度。其设计哲学是高效的网络设计。
5. ResNet (Residual Network, 2015年冠军) - 穿越深度的桥梁
- 核心问题:当网络不断加深时,准确率会达到饱和继而迅速下降。这并非过拟合,而是退化问题,表明深度网络反而更难训练。
- 核心创新 - 残差块与跳跃连接:
- 残差学习: 不再让堆叠的层直接学习目标映射
H(x),而是学习残差映射F(x) = H(x) - x。 - 跳跃连接: 将原始输入
x恒等映射到堆叠层的输出上,即最终输出为F(x) + x。 - 为什么有效?
- 解决梯度消失:梯度可以依据跳跃连接毫无衰减地反向传播到更早的层,极大地改善了训练过程。
- “免费的”:就是恒等映射 如果某一层的堆叠是多余的,模型可以轻松地将
F(x)的权重学习为0,使其退化为恒等映射x,而不会带来性能损失。
- 残差学习: 不再让堆叠的层直接学习目标映射
- 核心结构:网络由大量重复的残差块堆叠而成,可以轻松训练超过1000层的网络(如ResNet-152)。
- 启示:深度学习历史上最重要的架构之一。就是ResNet跳跃连接的思想极其容易而强大,彻底解决了深度网络的训练难题,被广泛应用于几乎所有类型的深度网络中。
6. DenseNet (Dense Convolutional Network) - 特征复用的极致
- 核心思想:假设残差连接是有效的,那么更密集的连接会不会更好?DenseNet将ResNet的思想推向极致。
- 核心结构 - 稠密块:
- 在一個稠密块内,每一层都会接收其前面所有层的特征图作为输入,并将其自身的特征图输出传递给后面所有层。
- 数学表示为:
x_l = H_l([x_0, x_1, ..., x_{l-1}]),其中[ ... ]表示通道维度上的拼接。
- 优势:
- 减轻梯度消失:每一层都能直接从损失函数和原始输入中获取梯度,训练更加容易。
- 鼓励特征复用:网络更容易利用之前提取到的所有特征。
- 参数更高效:由于每一层都直接访问所有先前特征,它行设计得很“窄”(输出通道数少),从而大幅减少参数量。
- 挑战:极致的连接导致需要拼接和保存大量特征图,对GPU内存消耗较大。
- 启示:探索了不同于深度和宽度的另一种维度——连接密度,证明了特征在网络中的最大化复用可以带来极高的参数效率。
三、 贯穿始终的关键技术:批量规范化(Batch Normalization)
- 问题:在训练深度网络时,每层输入的分布会随着前一层参数的变化而不断改变,这种现象称为内部协变量偏移。它迫使后续层要求不断适应新的分布,降低了训练速度,并使得初始化和学习率的选择非常敏感。
- 解决方案:Batch Norm在每一层的激活函数之前,对每个小批量的信息进行标准化(减去均值,除以标准差),将其均值和方差稳定在0和1左右。
- 带来的好处:
- 大大加快训练收敛速度。
- 允许利用更高的学习率。
- 降低对初始化的精细程度的依赖。
- 在一定程度上起到正则化的作用,减少对Dropout的依赖。
- 它已成为训练几乎所有深度网络的标准组件。
总结
在讲述一部就是介绍几个模型,更深度学习架构的进化史。这个进化过程围绕着几个核心主题展开:
- 深度:从AlexNet的8层,到VGG的19层,再到ResNet的上百层,网络越来越深。
- 效率:从VGG的小卷积核,到NiN/GoogLeNet的1x1卷积降维,都是在寻求用更少的参数和计算量做更多的事。
- 连接:从简单的链式结构,到ResNet的跳跃连接,再到DenseNet的密集连接,连接方式变得越来越丰富,以保障信息和梯度的畅通无阻。
- 组件化:从VGG的块状设计,到Inception模块、残差块、稠密块,网络设计从“搭积木”升级为“拼乐高”。
了解掌握这些模型,意味着不仅知道了它们的结构,更理解了其背后要消除的核心问题和设计哲学。未来设计、调整乃至创新自己的神经网络架构打下了最坚实的基础。
毕竟不能当个调参侠,虽然我想,但是领导肯定不愿意。
深入的学习资料推荐下面这个,后面我也得找时间深入一个一个研究一下:
https://zh.d2l.ai/chapter_convolutional-modern/index.html
浙公网安备 33010602011771号