深度神经网络（DNN，Deep Neural Network）

神经网络不应该看做是一个算法，应该看做是一个特征挖掘方法。在实际的业界发展过程中，数据的作用往往大于模型，当我们把数据的隐藏特征提取出来之后，用很简单的模型也能预测的很好。

神经网络模型由生物神经中得到启发。在生物神经元细胞中，神经突触接收到信号，经过接收并处理信号后判断信号的信息强弱，来做出不同神经电位变化反应。受此启发，科研人员设计出基础的神经网络模型结构，神经元模型（Neuron Model）。

一、从感知机到神经网络

1.1 感知机

下图为一个最简单的“M-P神经元结构”，该模型1943年提出，并一直沿用至今：

从模型示意图看，对于一个单一的神经元模型，其中{x_1,x_2,......,x_n}为该模型的输入数据；{ω_1,ω₂_,......,ω_n}为神经元模型计算参数，与输入数据维度一一对应，用于反应输入数据各维度的权重；θ表示神经元输出阈值，通常用于控制神经元是否输出结果或修正输出结果；为神经元模型的输出结果，计算方式如下公式：

y = ƒ(∑ⁿ_i=1ω_ix_i-θ)

其中，函数f 用于将函数值映射至区间[0, 1]（主要）或[-1, 1]（部分），函数 f 通常称为激活函数（activation function）。常用的激活函数包括Sigmoid、Tanh函数等。

单层感知机能够经过简单地学习实现输入值得“与”、“或”和“非”运算，但是单层感知机只能实现线性可分的数据学习（存在一个超平面使得数据分开），当线性不可分时单层感知机便无法处理。如“异或”操作，单层感知机即无法实现。

为了能够使得感知机的适应范围更广，可以将多个感知机进行连接，构成多层感知机模型来适应更复杂的任务。多层感知机模型也被称作人工神经网络（Artificial Neuron Network，ANN），将在下一篇进行介绍。

1.2 神经网络

1）为了增强模型的表达能力，在神经网络中加入了隐藏层，隐藏层可以有多层，如下图实例，当然增加了这么多隐藏层模型的复杂度也增加了好多。

2）输出层的神经元也可以不止一个输出，可以有多个输出，这样模型可以灵活的应用于分类回归，以及其他的机器学习领域比如降维和聚类等。多个神经元输出的输出层对应的一个实例如下图，输出层现在有4个神经元了。

3）对激活函数做扩展，感知机的激活函数是 $s i g n (z)$ ，虽然简单但是处理能力有限，因此神经网络中一般使用的其他的激活函数，比如我们在逻辑回归里面使用过的Sigmoid函数，即：

ƒ(z)=1/(1+e-z)

还有后来出现的tanx, softmax,和ReLU等。通过使用不同的激活函数，神经网络的表达能力进一步增强。

2. DNN的基本结构

DNN可以理解为有很多隐藏层的神经网络。这个很多其实也没有什么度量标准, 多层神经网络和深度神经网络DNN其实也是指的一个东西，当然，DNN有时也叫做多层感知机（Multi-Layer perceptron,MLP）, 名字实在是多。后面我们讲到的神经网络都默认为DNN。

从DNN按不同层的位置划分，DNN内部的神经网络层可以分为三类，输入层，隐藏层和输出层，如下图示例，一般来说第一层是输入层，最后一层是输出层，而中间的层数都是隐藏层。

层与层之间是全连接的，也就是说，第i层的任意一个神经元一定与第i+1层的任意一个神经元相连。虽然DNN看起来很复杂，但是从小的局部模型来说，还是和感知机一样，即一个线性关系 $z = \sum w_{i} x_{i} + b$ b 加上一个激活函数 $σ (z)$ 。

　　由于DNN层数多，则我们的线性关系系数 $w$ 和偏置 $b$ 的数量也就是很多了。具体的参数在DNN是如何定义的呢？

　　首先我们来看看线性关系系数 $w$ 的定义。以下图一个三层的DNN为例，第二层的第4个神经元到第三层的第2个神经元的线性系数定义为 $w_{24}^{3}$ 。上标3代表线性系数 $w$ 所在的层数，而下标对应的是输出的第三层索引2和输入的第二层索引4。

再来看看偏置 $b$ 的定义。还是以这个三层的DNN为例，第二层的第三个神经元对应的偏置定义为 $b_{3}^{2}$ 。其中，上标2代表所在的层数，下标3代表偏倚所在的神经元的索引。同样的道理，第三个的第一个神经元的偏置应该表示为 $b_{1}^{3}$ 。同样的，输入层是没有偏置参数 $b$ 的。

3. DNN前向传播算法数学原理

在上一节，我们已经介绍了DNN各层线性关系系数 $w$ ,偏置 $b$ 的定义。假设我们选择的激活函数是 $σ (z)$ ，隐藏层和输出层的输出值为 a，则对于下图的三层DNN，利用和感知机一样的思路，我们可以利用上一层的输出计算下一层的输出，也就是所谓的DNN前向传播算法。

　　　　对于第二层的的输出 $a_{1}^{2}, a_{2}^{2}, a_{3}^{2}$ ,a22,a23，我们有：

&lt;span id="MathJax-Span-234" class="mrow"&gt;&lt;span id="MathJax-Span-235" class="msubsup"&gt;&lt;span id="MathJax-Span-236" class="mi"&gt;a 21 = σ (z 21) = σ (w 211 x 1 + w 212 x 2 + w 213 x 3 + b 21)

&lt;span id="MathJax-Span-288" class="mrow"&gt;&lt;span id="MathJax-Span-289" class="msubsup"&gt;&lt;span id="MathJax-Span-290" class="mi"&gt;a 22 = σ (z 22) = σ (w 221 x 1 + w 222 x 2 + w 223 x 3 + b 22)

&lt;span id="MathJax-Span-342" class="mrow"&gt;&lt;span id="MathJax-Span-343" class="msubsup"&gt;&lt;span id="MathJax-Span-344" class="mi"&gt;a 23 = σ (z 23) = σ (w 231 x 1 + w 232 x 2 + w 233 x 3 + b 23)

　　　　对于第三层的的输出 $a_{1}^{3}$ ，我们有：

&lt;span id="MathJax-Span-402" class="mrow"&gt;&lt;span id="MathJax-Span-403" class="msubsup"&gt;&lt;span id="MathJax-Span-404" class="mi"&gt;a 31 = σ (z 31) = σ (w 311 a 21 + w 312 a 22 + w 313 a 23 + b 31)

　　　　将上面的例子一般化，假设第 $l - 1$ 层共有m个神经元，则对于第 $l$ 层的第j个神经元的输出 $a_{j}^{l}$ ，我们有：

&lt;span id="MathJax-Span-473" class="mrow"&gt;&lt;span id="MathJax-Span-474" class="msubsup"&gt;&lt;span id="MathJax-Span-475" class="mi"&gt;a l j = σ (z l j) = σ (\sum k = 1 m w l j k a l - 1 k + b l j)

　　　　其中，如果 $l = 2$ ,则对于的 $a_{k}^{1}$ 即为输入层的 $x_{k}$ 。

　　　　从上面可以看出，使用代数法一个个的表示输出比较复杂，而如果使用矩阵法则比较的简洁。假设第 $l - 1$ 层共有m个神经元，而第 $l$ 层共有n个神经元，则第 $l$ 层的线性系数 $w$ 组成了一个 $n \times m$ 的矩阵 $W^{l}$ , 第 $l$ 层的偏倚 $b$ 组成了一个 $n \times 1$ 的向量 $b^{l}$ , 第 $l - 1$ 层的的输出 $a$ 组成了一个 $m \times 1$ 的向量 $a^{l - 1}$ ，第 $l$ 层的的未激活前线性输出 $z$ 组成了一个 $n \times 1$ 的向量 $z^{l}$ , 第 $l$ 层的的输出 $a$ 组成了一个 $n \times 1$ 的向量 $a^{l}$ 。则用矩阵法表示，第l层的输出为：

&lt;span id="MathJax-Span-633" class="mrow"&gt;&lt;span id="MathJax-Span-634" class="msubsup"&gt;&lt;span id="MathJax-Span-635" class="mi"&gt;a l = σ (z l) = σ (W l a l - 1 + b l)

　　　　这个表示方法简洁漂亮，后面我们的讨论都会基于上面的这个矩阵法表示来。

4. DNN前向传播算法

　　　　有了上一节的数学推导，DNN的前向传播算法也就不难了。所谓的DNN的前向传播算法也就是利用我们的若干个权重系数矩阵 $W$ ,偏倚向量 $b$ 来和输入值向量 $x$ 进行一系列线性运算和激活运算，从输入层开始，一层层的向后计算，一直到运算到输出层，得到输出结果为值。

　　　　输入: 总层数L，所有隐藏层和输出层对应的矩阵 $W$ ,偏倚向量 $b$ ，输入值向量 $x$

　　　　输出：输出层的输出 $a^{L}$

　　　　1）初始化 $a^{1} = x$ =x

　　　　2) for $l = 2$ to $L$ , 计算：

&lt;span id="MathJax-Span-701" class="mrow"&gt;&lt;span id="MathJax-Span-702" class="msubsup"&gt;&lt;span id="MathJax-Span-703" class="mi"&gt;a l = σ (z l) = σ (W l a l - 1 + b l)

　　　　最后的结果即为输出 $a^{L}$ 。

5. 反向传播

　　　　在了解DNN的反向传播算法前，我们先要知道DNN反向传播算法要解决的问题，也就是说，什么时候我们需要这个反向传播算法？　

　　　　回到我们监督学习的一般问题，假设我们有m个训练样本： ${(x_{1}, y_{1}), (x_{2}, y_{2}), . . ., (x_{m}, y_{m})}$ ,其中 $x$ 为输入向量，特征维度为 $n_i n$ ,而 $y$ 为输出向量，特征维度为 $n_o u t$ 。我们需要利用这m个样本训练出一个模型，当有一个新的测试样本 $(x_{t e s t}, ?)$ 来到时, 我们可以预测 $y_{t e s t}$ 向量的输出。　

　　　　如果我们采用DNN的模型，即我们使输入层有 $n_i n$ 个神经元，而输出层有 $n_o u t$ 个神经元。再加上一些含有若干神经元的隐藏层。此时我们需要找到合适的所有隐藏层和输出层对应的线性系数矩阵 $W$ ,偏倚向量 $b$ ,让所有的训练样本输入计算出的输出尽可能的等于或很接近样本输出。怎么找到合适的参数呢？

　　　　如果大家对传统的机器学习的算法优化过程熟悉的话，这里就很容易联想到我们可以用一个合适的损失函数来度量训练样本的输出损失，接着对这个损失函数进行优化求最小化的极值，对应的一系列线性系数矩阵 $W$ ,偏倚向量 $b$ 即为我们的最终结果。在DNN中，损失函数优化极值求解的过程最常见的一般是通过梯度下降法来一步步迭代完成的，当然也可以是其他的迭代方法比如牛顿法与拟牛顿法。如果大家对梯度下降法不熟悉，建议先阅读我之前写的梯度下降（Gradient Descent）小结。

　　　　对DNN的损失函数用梯度下降法进行迭代优化求极小值的过程即为我们的反向传播算法。

　　　　本篇使用了矩阵向量求导，如果你对这一块不熟悉，请先阅读下我写的矩阵向量求导系列文章。

　　　　在进行DNN反向传播算法前，我们需要选择一个损失函数，来度量训练样本计算出的输出和真实的训练样本输出之间的损失。你也许会问：训练样本计算出的输出是怎么得来的？这个输出是随机选择一系列 $W, b$ ,用我们上一节的前向传播算法计算出来的。即通过一系列的计算： $a^{l} = σ (z^{l}) = σ (W^{l} a^{l - 1} + b^{l})$ =σ(zl)=σ(Wlal−1+bl)。计算到输出层第 $L$ 层对应的 $a^{L}$ 即为前向传播算法计算出来的输出。

　　　　回到损失函数，DNN可选择的损失函数有不少，为了专注算法，这里我们使用最常见的均方差来度量损失。即对于每个样本，我们期望最小化下式：

&lt;span id="MathJax-Span-150" class="mrow"&gt;&lt;span id="MathJax-Span-151" class="mi"&gt;J (W, b, x, y) = 1 2 | | a L - y | | 22

　　　　其中， $a^{L}$ 和 $y$ 为特征维度为 $n_o u t$ 的向量,而 $| | S | |_{2}$ |S||2为S的L2范数。

　　　　损失函数有了，现在我们开始用梯度下降法迭代求解每一层的 $W, b$ 。

　　　　首先是输出层第 $L$ 层。注意到输出层的 $W, b$ 满足下式：

&lt;span id="MathJax-Span-231" class="mrow"&gt;&lt;span id="MathJax-Span-232" class="msubsup"&gt;&lt;span id="MathJax-Span-233" class="mi"&gt;a L = σ (z L) = σ (W L a L - 1 + b L)

　　　　这样对于输出层的参数，我们的损失函数变为：

&lt;span id="MathJax-Span-261" class="mrow"&gt;&lt;span id="MathJax-Span-262" class="mi"&gt;J (W, b, x, y) = 1 2 | | a L - y | | 22 = 1 2 | | σ (W L a L - 1 + b L) - y | | 22

　　　　这样求解 $W, b$ 的梯度就简单了：

&lt;span id="MathJax-Span-340" class="mrow"&gt;&lt;span id="MathJax-Span-341" class="mfrac"&gt;&lt;span id="MathJax-Span-342" class="mrow"&gt;&lt;span id="MathJax-Span-343" class="mi"&gt;&amp;part;J(W,b,x,y)∂WL=[(aL−y)⊙σ′(zL)](aL−1)T∂J(W,b,x,y)∂WL=[(aL−y)⊙σ′(zL)](aL−1)T

&lt;span id="MathJax-Span-394" class="mrow"&gt;&lt;span id="MathJax-Span-395" class="mfrac"&gt;&lt;span id="MathJax-Span-396" class="mrow"&gt;&lt;span id="MathJax-Span-397" class="mi"&gt;&amp;part;J(W,b,x,y)∂bL=(aL−y)⊙σ′(zL)∂J(W,b,x,y)∂bL=(aL−y)⊙σ′(zL)

　　　　注意上式中有一个符号 $⊙$ ,它代表Hadamard积，对于两个维度相同的向量 $A （ a_{1}, a_{2}, . . . a_{n} ）^{T}$ 和 $B （ b_{1}, b_{2}, . . . b_{n} ）^{T}$ ,则 $A ⊙ B = (a_{1} b_{1}, a_{2} b_{2}, . . . a_{n} b_{n})^{T}$ 。

　　　　我们注意到在求解输出层的 $W, b$ 的时候，有中间依赖部分 $\frac{\partial J (W, b, x, y)}{\partial z^{L}}$ ∂zL，因此我们可以把公共的部分即对 $z^{L}$ 先算出来，记为：

&lt;span id="MathJax-Span-551" class="mrow"&gt;&lt;span id="MathJax-Span-552" class="msubsup"&gt;&lt;span id="MathJax-Span-553" class="mi"&gt;&amp;delta; L = \partial J ( W , b , x , y ) \partial z L = (a L - y) ⊙ σ' (z L)

　　　　现在我们终于把输出层的梯度算出来了，那么如何计算上一层 $L - 1$ 层的梯度，上上层 $L - 2$ 层的梯度呢？这里我们需要一步步的递推，注意到对于第 $l$ 层的未激活输出 $z^{l}$ ，它的梯度可以表示为:

&lt;span id="MathJax-Span-614" class="mrow"&gt;&lt;span id="MathJax-Span-615" class="msubsup"&gt;&lt;span id="MathJax-Span-616" class="mi"&gt;&amp;delta; l = \partial J ( W , b , x , y ) \partial z l = (\partial z L \partial z L - 1 \partial z L - 1 \partial z L - 2 . . . \partial z l + 1 \partial z l) T \partial J ( W , b , x , y ) \partial z L

　　　　如果我们可以依次计算出第 $l$ 层的 $δ^{l}$ ,则该层的 $W^{l}, b^{l}$ ,bl很容易计算？为什么呢？注意到根据前向传播算法，我们有：

&lt;span id="MathJax-Span-732" class="mrow"&gt;&lt;span id="MathJax-Span-733" class="msubsup"&gt;&lt;span id="MathJax-Span-734" class="mi"&gt;z l = W l a l - 1 + b l

　　　　所以根据上式我们可以很方便的计算出第l层的 $W^{l}, b^{l}$ ,bl的梯度如下：

&lt;span id="MathJax-Span-761" class="mrow"&gt;&lt;span id="MathJax-Span-762" class="mfrac"&gt;&lt;span id="MathJax-Span-763" class="mrow"&gt;&lt;span id="MathJax-Span-764" class="mi"&gt;&amp;part;J(W,b,x,y)∂Wl=δl(al−1)T∂J(W,b,x,y)∂Wl=δl(al−1)T

&lt;span id="MathJax-Span-798" class="mrow"&gt;&lt;span id="MathJax-Span-799" class="mfrac"&gt;&lt;span id="MathJax-Span-800" class="mrow"&gt;&lt;span id="MathJax-Span-801" class="mi"&gt;&amp;part;J(W,b,x,y)∂bl=δl∂J(W,b,x,y)∂bl=δl

　　　　其中，第一个式子的推导可以参考机器学习中的矩阵向量求导(四) 矩阵向量求导链式法则中第三节的最后一个公式。

　　　　那么现在问题的关键就是要求出 $δ^{l}$ 了。这里我们用数学归纳法，第 $L$ 层的 $δ^{L}$ 上面我们已经求出，假设第 $l + 1$ 层的 $δ^{l + 1}$ 已经求出来了，那么我们如何求出第 $l$ 层的 $δ^{l}$ 呢？我们注意到：

&lt;span id="MathJax-Span-865" class="mrow"&gt;&lt;span id="MathJax-Span-866" class="msubsup"&gt;&lt;span id="MathJax-Span-867" class="mi"&gt;&amp;delta; l = \partial J ( W , b , x , y ) \partial z l = (\partial z l + 1 \partial z l) T \partial J ( W , b , x , y ) \partial z l + 1 = (\partial z l + 1 \partial z l) T δ l + 1

　　　　可见，用归纳法递推 $δ^{l + 1}$ 和 $δ^{l}$ 的关键在于求解 $\frac{\partial z^{l + 1}}{\partial z^{l}}$ ∂zl。

　　　　而 $z^{l + 1}$ 和 $z^{l}$ 的关系其实很容易找出：

&lt;span id="MathJax-Span-1015" class="mrow"&gt;&lt;span id="MathJax-Span-1016" class="msubsup"&gt;&lt;span id="MathJax-Span-1017" class="mi"&gt;z l + 1 = W l + 1 a l + b l + 1 = W l + 1 σ (z l) + b l + 1

　　　　这样很容易求出：

&lt;span id="MathJax-Span-1067" class="mrow"&gt;&lt;span id="MathJax-Span-1068" class="mfrac"&gt;&lt;span id="MathJax-Span-1069" class="mrow"&gt;&lt;span id="MathJax-Span-1070" class="mi"&gt;&amp;part;zl+1∂zl=Wl+1diag(σ′(zl))∂zl+1∂zl=Wl+1diag(σ′(zl))

　　　　将上式带入上面 $δ^{l + 1}$ 和 $δ^{l}$ 关系式我们得到：

&lt;span id="MathJax-Span-1128" class="mrow"&gt;&lt;span id="MathJax-Span-1129" class="msubsup"&gt;&lt;span id="MathJax-Span-1130" class="mi"&gt;&amp;delta; l = (\partial z l + 1 \partial z l) T \partial J ( W , b , x , y ) \partial z l + 1 = d i a g (σ' (z l)) (W l + 1) T δ l + 1 = (W l + 1) T δ l + 1 ⊙ σ' (z l)

　　　　现在我们得到了 $δ^{l}$ 的递推关系式，只要求出了某一层的 $δ^{l}$ ，求解 $W^{l}, b^{l}$ ,bl的对应梯度就很简单的。

　　　　现在我们总结下DNN反向传播算法的过程。由于梯度下降法有批量（Batch），小批量(mini-Batch)，随机三个变种，为了简化描述，这里我们以最基本的批量梯度下降法为例来描述反向传播算法。实际上在业界使用最多的是mini-Batch的梯度下降法。不过区别仅仅在于迭代时训练样本的选择而已。

　　　　输入: 总层数L，以及各隐藏层与输出层的神经元个数，激活函数，损失函数，迭代步长 $α$ ,最大迭代次数MAX与停止迭代阈值 $ϵ$ ，输入的m个训练样本 ${(x_{1}, y_{1}), (x_{2}, y_{2}), . . ., (x_{m}, y_{m})}$

　　　　输出：各隐藏层与输出层的线性关系系数矩阵 $W$ 和偏倚向量 $b$

　　　　1) 初始化各隐藏层与输出层的线性关系系数矩阵 $W$ 和偏倚向量 $b$ 的值为一个随机值。

　　　 2）for iter to 1 to MAX：

　　　　2-1) for i =1 to m：

　　　　　　a) 将DNN输入 $a^{1}$ 设置为 $x_{i}$

　　　　　　b) for $l$ =2 to L，进行前向传播算法计算 $a^{i, l} = σ (z^{i, l}) = σ (W^{l} a^{i, l - 1} + b^{l})$ =σ(zi,l)=σ(Wlai,l−1+bl)

　　　　　　c) 通过损失函数计算输出层的 $δ^{i, L}$

　　　　　　d) for $l$ = L-1 to 2, 进行反向传播算法计算 $δ^{i, l} = (W^{l + 1})^{T} δ^{i, l + 1} ⊙ σ^{^{'}} (z^{i, l})$ =(Wl+1)Tδi,l+1⊙σ′(zi,l)

　　　　2-2) for $l$ = 2 to L，更新第 $l$ 层的 $W^{l}, b^{l}$ ,bl:

&lt;span id="MathJax-Span-1453" class="mrow"&gt;&lt;span id="MathJax-Span-1454" class="msubsup"&gt;&lt;span id="MathJax-Span-1455" class="mi"&gt;W l = W l - α \sum i = 1 m δ i, l (a i, l - 1) T

&lt;span id="MathJax-Span-1492" class="mrow"&gt;&lt;span id="MathJax-Span-1493" class="msubsup"&gt;&lt;span id="MathJax-Span-1494" class="mi"&gt;b l = b l - α \sum i = 1 m δ i, l

　　　　2-3) 如果所有 $W ， b$ 的变化值都小于停止迭代阈值 $ϵ$ ，则跳出迭代循环到步骤3。

　　　　3）输出各隐藏层与输出层的线性关系系数矩阵 $W$ 和偏倚向量 $b$ 。

posted @ 2023-03-22 19:43 宽扁担阅读(1449) 评论(0) 收藏举报

刷新页面返回顶部