ReLU——Deep Sparse Rectifier Neural Networks

1. 摘要

ReLU 相比 Tanh 能产生相同或者更好的性能，而且能产生真零的稀疏表示，非常适合自然就稀疏的数据。

采用 ReLU 后，在大量的有标签数据下，有没有无监督预训练模型取得的最好效果是一样的，这可以被看做是训练深层有监督网络的一个新的里程碑。

2. 背景

2.1. 神经元科学的观察

对脑能量消耗的研究表明，神经元以稀疏和分布的方式编码信息，同时活跃的神经元的百分比估计在 1％到 4％之间。这是信息表示丰富度和潜在能量消耗的一种平衡。但是，如果没有额外的正则化，比如 \(L_1\) 惩罚，普通的神经网络是没有这个特性的。

在生物神经元模型中，射频和输入电流的关系如上面左图所示。而在深度学习领域，最常见的两个激活函数 Sigmoid 和 Tanh 的图像如上面右图所示。

2.2. 稀疏的优势

信息分离。密集表示的信息是高度纠缠的，任何输入的变化都会导致表示向量大部分元素的改变。而如果一个表示对小的输入变化是稀疏且鲁棒的，那么非零特征就总会大致保持不变。

有效的大小可变表示。不同的输入信息量可能不同，这就要求我们的表示也是大小可变的。而改变激活神经元的数量就可以让模型控制表示的有效维度以及需要的精度。

线性可分。稀疏表示的信息一般是在高维空间，更加容易线性可分。

分布但稀疏。密集的分布式表示是最丰富的表示，比纯局部要成倍地有效，而稀疏表示中非零特征的数量也可以保证其有效性。

但是，太过强调稀疏性也会减少模型的有效容量，降低性能。

3. 深度网络

神经科学研究表明，大脑皮层的神经元很少达到它们的最大饱和区域，这表明激活函数可以用 ReLU 来近似表示。

给定一个输入，只有一部分神经元被选择，网络的非线性也就来自于单个神经元的是否被激活。一旦确定了哪些神经元被选择，输出就是对输入的一个线性函数。正因为此，梯度的反向传播不会像 Sigmoid 或者 Tanh 那样容易消失，而且也不涉及指数部分的计算，节省计算成本，还能得到稀疏解。每一次，被激活的神经元都是不确定的，这可以看作是很多个共享参数的线性模型的组合。