深度学习中的Normalization方法

　　深度神经网络难训练一个重要的原因就是深度神经网络涉及很多层的叠加，每一层的参数变化都会导致下一层输入数据分布的变化，随着层数的增加，高层输入数据分布变化会非常剧烈，这就使得高层需要不断适应低层的参数更新。为了训练好模型，我们需要谨慎初始化网络权重，调整学习率等。

本篇博客总结几种Normalization办法，并给出相应计算公式和代码。

将输入的feature map shape记为[Batch(N), Channel, Height, Width]，这几个方法主要的区别就是在于：

Batch Normalization（BN，2015年）：沿batch方向上，对 (N、H、W) 做归一化，保留通道C的维度，

优点：适用于CNN
缺点：对较小的batch size效果不好，不适用于RNN

Layer Normalization（LN，2016年）：沿Channel方向上，对 (C、H、W) 做归一化，保留通道N的维度

优点：适用序列模型，如：RNN
缺点：不适应输入变化很大的数据，大Batch较差

Instance Normalization（IN，2017年）：在图像像素上，对 (H、W) 做归一化

优点：适用图像风格迁移
缺点：不适应通道之间的相关性较强数据

Group Normalization（GN，2018年）：将channel分组，对 (C/G、H、W) 做归一化，在不同的Batch Size下具有较大的稳定性，而GN在中、大Batch Size下的性能略差于BN。

优点：不同Batch Size下具有较大的稳定性
缺点：在大Batch 下性能略差于BN

Switchable Normalization（SN，2018年）：将BN、LN、IN结合，赋予权重，让网络自己去学习归一化层应该使用什么方法

优点：集BN、IN、LN优点于一身
缺点：训练复杂

Positional Normalization（PN，2019年）：提出了位置归一化算法来计算生成网络沿信道维数的统计量；

优点：在生成网络中表现较好
缺点：不适应视觉任务

Batch Group Normalization（BGN，2020年）：

优点：解决Batch Size退化和饱和的问题
缺点：暂不清楚

FRN(2020)

优点：不受batch size的影响。
缺点：暂不清楚

SaBN(2021)

优点：解决多类别不平衡问题
缺点：小批量它的性能会下降

立方体shape为(N, H, W, C)的像素点，N为batch size轴，C为通道轴。蓝色的像素群表示使用这些像素值来计算平均值和方差进行归一化

Batch Normalization

Ioffe S, Szegedy C. Batch normalization: Accelerating deep network training by reducing internal covariate shift[C]//International conference on machine learning. PMLR, 2015: 448-456.

提出原因

1、在训练神经网络过程中，通常输入batch个数据进行训练，这样每个batch具有不同的分布，使模型训练起来相对困难。

2、Internal Covariate Shift (ICS) 问题：在训练深层网络时，激活函数会改变各层数据的分布以及量级，随着网络的加深，这种改变会越来越大，模型不稳定不容易收敛，甚至可能出现梯度消失的问题。

那我们就看看下面的两个动图, 这就是在每层神经网络有无 batch normalization 的区别

图* 没有BN的模型权值分布

图* 使用BN的模型权值分布

没有normalization 的输出数据很多都等于0，导致后面的神经元“死掉”，起不到任何作用。

原理

BN的主要思想：沿着通道维度，在batch维度上，计算(N, H, W)均值和方差，然后对feature map进行归一化，这样不仅数据分布一致，而且避免发生梯度消失。保证每一次数据经过归一化后还保留原有学习来的特征，同时又能完成归一化操作，加速训练。

其操作可以分成2步，

Standardization：首先对$m$个$x$进行 Standardization，得到 zero mean unit variance的分布$\hat{x}$。
scale and shift：然后再对$\hat{x}$进行scale and shift，缩放并平移到新的分布y，具有新的均值β方差γ。

假设BN层有d个输入节点，则x可构成d*m大小的矩阵X，BN层相当于通过行操作将其映射为另一个d*m大小的矩阵Y，如下所示

$\mu$和$\delta $为当前行的均值和方差
$\gamma $和$\beta$为可学习的scale和shift参数，用于控制$y_i$的方差和均值，在pytorch中由affine控制。
BN层中，$x_i$和$x_j$之间不存在信息交流（$i \neq j$）

$\epsilon $是一个很小的值，防止被除0。可见，无论原本的均值和方差是多少，通过BatchNorm后其均值和方差分别变为待学习的$\gamma $和$\beta$。

BN的使用：

　　BN的一个问题是训练时batch size一般较大，但是测试时batch size一般为1，而均值和方差的计算依赖batch，这将导致训练和测试不一致。BN的解决方案是在训练时候使用移动平均用于估计全局均值和方差，以便在推理（测试）阶段使用。因为，在推理阶段，我们希望使用整个数据集的全局均值和方差，而不是某个特定mini-batch的统计量。

移动平均的计算方式：移动平均通过以下公式更新全局均值和方差：

$$\hat{x}_{\text{new}} = (1 - \text{momentum}) \times \hat{x} + \text{momentum} \times x_t$$