Neural Networks & Backpropagation - BreezeDeus - 博客园

Neural Networks & Backpropagation

[本文链接：http://www.cnblogs.com/breezedeus/archive/2013/04/22/3036050.html，转载请注明出处]

神经网络模型通常被用于做有监督学习（如分类，回归等情景），本文主要介绍下神经网络模型中使用后项传播算法（Backpropagation）来计算梯度的方法。下图是一个四层神经网络模型的图表示，其中第一层（L1）是输入层，第四层（L4）是输出层，中间两层通常被称为隐藏层。

这里我们复用了[1]中的记号，具体记号的含义请参考[1]（注：[1]和[2]中关于z和a的定义刚好反过来了）。具体的模型如下：

其中f()为activation function，通常取为sigmoid函数：

，

或者hyperbolic tangent函数：

。

注意我们之前的模型表达顺序刚好是对应图表示里从左到右的顺序，在有一个样本点(x, y)，我们可以按照此顺序获得对y的预测值（当然，是假定模型参数W和b都已知道）。这个过程通常被称为forward propagation。

求解模型中的参数W和b通常是通过最优化方法（如梯度下降、拟牛顿法等）最小化某个给定的目标函数获得的。在使用这些优化算法求解时，都需要计算目标函数对参数的梯度值。而通常目标函数的定义是各个训练样本点的误差之和，如在回归问题中，常用的目标函数是L2-Loss：

我们下面以此L2-Loss为例，说明求梯度的方法。

既然总目标函数值是各个训练样本点对应的目标函数值之和，他们对参数的梯度也有同样的关系。所以下面我只说明如何算对一个训练点，为简单考虑，我们略去上标(i)，只写为(x, y)。先来看看对的偏导数：

为简单起见，我们引入一个新定义：

那么前面的式子可以写为：

对于不同层的w，其偏导数都具有这样的格式：

其中l = 4, 3, 2。而。

既然在forward propagation中已经计算出来，只要我们能计算出所有层的，那么对所有层的参数w的导数也就获得了。而对参数的导数则等于。

前面，我们已经知道。那么，现在的问题就是如何计算更低层的？下面我们将利用数学里求导数的链式法则，通过后一层的计算出前一层的。这个从后往前计算和参数偏导数的过程通常被称为Back propagation。

其中l = 3, 2。虽然这个推到公式看起来有点恐怖，但其实只是把原来表达为的函数的目标值J(W, b; x, y)转换为使用表达而已。比如，J(w, b; x, y)，可以写成：

也可以写成：

详细的算法可见[1]或者[2]。

[References]

[1] Andrew Ng, Jiquan Ngiam et al. UFLDL Tutorial: Feature Learning and Deep Learning.

[2] Christopher Bishop. Chapter 5 Neural Networks, Pattern Recognition and Machine Learning, 2007.

posted on 2013-04-22 17:26 BreezeDeus 阅读(740) 评论(0) 收藏举报

刷新页面返回顶部