神经网络与深度学习（二）：前馈神经网络

神经元

激活函数的性质

连续并可导（允许少数点上不可导）的非线性函数。
- 可导的激活函数可以直接利用数值优化的方法来学习网络参数。
激活函数及其导函数要尽可能的简单
- 有利于提高网络计算效率。
激活函数的导函数的值域要在一个合适的区间内
- 不能太大也不能太小，否则会影响训练的效率和稳定性。
单调递增

常用的激活函数

复合函数=S型函数+斜坡函数

S型函数

Logistic函数

\[\sigma ( x ) = \frac { 1 } { 1 + e x p ( - x ) } \]

\[\left. \begin{array} { l } { tan h ( x ) = \frac { e x p ( x ) - e x p ( - x ) } { e x p ( x ) + e x p ( - x ) } } \\ { tan h ( x ) = 2 \sigma ( 2 x ) - 1 } \end{array} \right. \]

性质：

饱和函数
Tanh函数是零中心化的，而logistic函数的输出恒大于0

斜坡函数

\[Relu(x)=max(0,x) \]

计算上更加高效
生物学合理性
- 单侧抑制、宽兴奋边界
在一定程度上缓解梯度消失问题

死亡ReLU问题(Dying ReLU Problem)

\[\begin{array}{l} LeakyReLU(x)=\left\{\begin{array}{ll} x& \text { if } x>0 \\ \gamma x & \text { if } x \leq 0 \end{array}\right.\\ =\max (0, x)+\gamma \min (0, x) \end{array} \]

近似的零中心化的非线性函数

\[\begin{aligned} \mathrm{ELU}(x) &=\left\{\begin{array}{ll} x & \text { if } x>0 \\ \gamma(\exp (x)-1) & \text { if } x \leq 0 \end{array}\right.\\ &=\max (0, x)+\min (0, \gamma(\exp (x)-1)) \end{aligned} \]

Rectifier函数的平滑版本

\[\operatorname{Softplus}(x)=\log (1+\exp (x)) \]

复合函数

Swish函数：一种自门控(Self-Gated)激活函数

\[swish(x)=x\sigma(\beta x) \]

高斯误差线性单元(Gaussian Error Linear Unit,GELU)

\[GELU(x)=xP(X\le x) \]

神经网络

人工神经网络主要由大量的神经元以及它们之间的有向连接构成。因此考虑三方面：

神经元的激活规则
- 主要是指神经元输入到输出之间的映射关系，一般为非线性函数。
网络的拓扑结构
- 不同神经元之间的连接关系。
学习算法
- 通过训练数据来学习神经网络的参数。

网络结构

人工神经网络由神经元模型构成，这种由许多神经元组成的信息处理网络具有并行分布结构。

神经网络是一种主要的连接主义模型

20世纪80年代后期，最流行的一种连接主义模型是分布式并行处理(Parallel Distributed Processing,PDP)网络，其有3个主要特性：

信息表示是分布式的（非局部的)；
记忆和知识是存储在单元之间的连接上；
通过逐渐改变单元之间的连接强度来学习新的知识。

引入误差反向传播来改进其学习能力之后，神经网络也越来越多地应用在各种机器学习任务上。

前馈神经网络

全连接神经网络、多层感知器

各神经元分别属于不同的层，层内无连接。
相邻两层之间的神经元全部两两连接。
整个网络中无反馈，信号从输入层向输出层单向传播，可用一个有向无环图表示。

给定一个前馈神经网络，用下面的记号来描述这样网络：

信息传递过程

前馈神经网络通过下面公式进行信息传播。

\[\begin{aligned} z^{(l)} &=\boldsymbol{W}^{(l)} \boldsymbol{a}^{(l-1)}+\boldsymbol{b}^{(l)} \\ \boldsymbol{a}^{(l)} &=f_{l}\left(\boldsymbol{z}^{(l)}\right) \end{aligned} \]

\[\boldsymbol{a}^{(l)}=f_{l}\left(\boldsymbol{W}^{(l)} \boldsymbol{a}^{(l-1)}+\boldsymbol{b}^{(l)}\right) \]

前馈计算：

应用到机器学习

神经网络可以作为一个“万能”函数来使用，可以用来进行复杂的特征转换，或逼近一个复杂的条件分布。

\[\hat{y}=g(\phi(\boldsymbol{x}) ; \theta) \]

深层前馈神经网络

参数学习

对于多分类问题

如果使用Softmax回归分类器，相当于网络最后一层设置C个神经元，其输出经过Softmax函数进行归一化后可以作为每个类的条件概率。

\[\hat{\boldsymbol{y}}=\operatorname{softmax}\left(z^{(L)}\right) \]

采用交叉熵损失函数，对于样本(X,y),其损失函数为

\[\mathcal{L}(\boldsymbol{y}, \hat{\boldsymbol{y}})=-\boldsymbol{y}^{\top} \log \hat{\boldsymbol{y}} \]

给定训练集为 $D=\left{\left(\boldsymbol{x}^{(n)}, y^{{(n)}\right)\right}_{n=1}} $, 将每个样本 $\boldsymbol{x}^{(n)}$ 输入给前馈神经网络, 得到网络输出为$\hat{y}^{(n)}$, 其在数据集 $\mathrm{D}$ 上的结构化风险函数为:

\[\mathcal{R}(\boldsymbol{W}, \boldsymbol{b})=\frac{1}{N} \sum_{n=1}^{N} \mathcal{L}\left(\boldsymbol{y}^{(n)}, \hat{\boldsymbol{y}}^{(n)}\right)+\frac{1}{2} \lambda\|\boldsymbol{W}\|_{F}^{2} \]

Frobenius范数

\[\|\boldsymbol{W}\|_{F}^{2}=\sum_{l=1}^{L} \sum_{i=1}^{M_{l}} \sum_{j=1}^{M_{l-1}}\left(w_{i j}^{(l)}\right)^{2} \]

梯度下降

计算

\[\frac{\partial \mathcal{R}(\boldsymbol{W}, \boldsymbol{b})}{\partial \boldsymbol{W}^{(t)}} \]

$和$

\[\frac{\partial \mathcal{R}(\boldsymbol{W}, \boldsymbol{b})}{\partial \boldsymbol{b}^{(t)}} \]

如何计算梯度？

神经网络为一个复杂的复合函数

链式法则？

\[y=f^{5}\left(f^{4}\left(f^{3}\left(f^{2}\left(f^{1}(x)\right)\right)\right)\right) \rightarrow \frac{\partial y}{\partial x}=\frac{\partial f^{1}}{\partial \mathrm{x}} \frac{\partial f^{2}}{\partial f^{1}} \frac{\partial f^{3}}{\partial f^{2}} \frac{\partial f^{4}}{\partial f^{3}} \frac{\partial f^{5}}{\partial f^{4}} \]

反向传播算法

根据前馈网络的特点而设计的高效方法

一个更加通用的计算方法

自动微分(Automatic Differentiation,AD)

反向传播算法

矩阵微积分

矩阵微积分(Matrix Calculus)是多元微积分的一种表达方式，即使用矩阵和向量来表示因变量每个成分关于自变量每个成分的偏导数。
分母布局
- 标量关于向量的偏导数
\[\frac{\partial y}{\partial x}=\left[\frac{\partial y}{\partial x_{1}}, \cdots, \frac{\partial y}{\partial x_{M}}\right]^{\top} \in \mathbb{R}^{M \times 1} \]
- 向量关于向量的偏导数
\[\frac{\partial f(\boldsymbol{x})}{\partial \boldsymbol{x}}=\left[\begin{array}{ccc} \frac{\partial y_{1}}{\partial x_{1}} & \cdots & \frac{\partial y_{N}}{\partial x_{1}} \\ \vdots & \ddots & \vdots \\ \frac{\partial y_{1}}{\partial x_{M}} & \cdots & \frac{\partial y_{N}}{\partial x_{M}} \end{array}\right] \in \mathbb{R}^{M \times N} \]