【机器学习】BatchNormalization

参考博客：https://www.cnblogs.com/guoyaohua/p/8724433.html

BN好处：

1）防止梯度消失，提升训练速度，收敛过程更快。因为把输入分布拉到了例如sigmoid中间区域

2）增加分类效果，类似于dropout的一种防止过拟合的正则化表达方式，不用dropout也能达到相当的效果

3）调参过程简单许多，对初始化要求没有那么高，而且可以使用大的学习率。

关于第1点，有个疑问，如果是用relu激活函数，就不存在类似sigmoid、tanh的梯度饱和区，为什么也还要用BN呢？

经百度查询，有网友说：

不论用不用BN，relu该有的缺点也都不会少，例如有节点dead。而用了BN后，至少保证了一部分节点一定是active的。简而言之，就是也不会更差吧。

关于2、3点我个人不是很理解，经网上查询，总结如下：

BN主要作用是加快网络的训练速度。关于防止过拟合可理解为：

理解1）BN每次mini-batch的数据不同，但每次都对这些数据进行了规范化（移动了mean和var），可以认为是引入了噪声，相当于进行了data augmentation

（https://www.zhihu.com/question/275788133/answer/384198714）

理解2）

BN的核心是通过对参数搜索空间进行约束来增加鲁棒性，这种约束压缩了搜索空间，改善了系统的结构合理性，比如加速收敛，保证梯度，缓解过拟合等。BN就是要保证曲线分布尽量均匀平滑均匀（数据的各个维度上尺度一致从而避免出现某些维度数据过于集中），这可以带来缓解梯度消失和过拟合。同样，dropout是在另一个角度对曲线分布进行约束，其要求是当仅考察数据的任意一个低维子空间的时候，曲线的分布也是均匀的。BN和dropout从不同角度对曲线分布进行约束，二者有相似的作用，但是有时候又会相互冲突，因为毕竟二者所限定的约束不能完全互容，所以二者有时候可以替代，但又不能完全替代。

（https://www.zhihu.com/question/275788133/answer/386749776）

BN一句话概括：

对于每个隐层神经元，把逐渐向两端靠拢的分布强行拉回标准正态分布，使得非线性函数的输入落在比较敏感的区域，以避免梯度消失问题。

BN基本思想：

对深层神经网络而言，随层数越深，其每层输入值的整体分布一般逐渐往非线性函数的饱和区（例如下图sigmoid的两端）。这导致反向传播时，低层神经网络的梯度消失，更新缓慢。

BN则是把每层神经网络任意神经元的输入值分布强行拉回均值为0，方差为1的标准正态分布。即将越来越偏的分布强行拉回比较标准的分布，使得激活输入值落在非线性函数对对输入比较敏感的中间区域。例如标准正态分布，有64%概率x落在[-1, 1]之间，95%的概率落在[-2, 2]范围内。

这样输入的小变化会导致损失函数较大的变化，使得梯度变大，避免梯度消失问题产生（连乘）；同时梯度变大意味学习收敛速度更快，也可加快训练速度。

scale and shift

经过BN后，大部分输入的值落在非线性函数的线性区内，其对应的导数原来饱和区（非线性区），但这不就使得非线性函数和线性函数效果相同了？

如果是多层的线性变换，深层是没有意义的，因为多层线性和一层线性是等价的。岂不是意味着网络的表达能力下降了？

所以BN为了保证非线性的获得，对变换后的标准正态分布又进行了scale加上shift的操作（y=x*scale+shift），每个神经元增加了两个参数scale和shift，这两个参数是通过训练学习得到的。通过这两个参数，可以将标准正态分布左移或右移并长胖或变瘦一点。每个实例挪动的程度不一。这样等价于把非线性函数的值从正中间线性区域往非线性挪动了。

核心思想就是找到一个线性和非线性较好的平衡点，即可享受非线性的较强表达能力的好处，也可避免太靠近非线性区两头使得网络收敛速度太慢。有了这两个参数，就保证了至少不会比原来更差，因为还可以变回原来的样子。