原文地址:http://suanfazu.com/t/topic/13741

深度学习最近两年在音频分析,视频分析,游戏博弈等问题上取得了巨大的成果。由于微软,谷歌等科技巨头的推动及应用上的可见突破,使得深度学习成为目前学术界和工业界的超热门话题。包括国内很多公司也乐见其成,适时宣布自己的产品或算法也拥抱了深度学习。不过对于具体如何使用,达到了什么效果等问题讳莫如深。

事实上,关于深度学习的大量研究成果在上世纪已经完成,包括卷积神经网络(CNN)、长短时记忆网络(LSTM),多层网络的表达能力等。宣称自己在使用某个算法工具其实并不具备天然的正义性,如何能将工具用好,解决关键场景才是我们应该关心的问题。

为提升对非结构化数据的处理,玻森(bosonnlp.com)4内部也在开展深度学习的讨论。接下来的一段时间,我们将不定期更新深度学习的讨论 notes。

我们不谈情怀,不讨论人工智能是否要统治人类,也不论奇点是否临近。我们就谈点落地的深度学习基础数学理论,及背后的几何直观。世界太大,认知有限,这点上我们遵从维特根斯坦的观点,“凡能够说的,都能够说清楚;凡不能谈论的,就应该保持沉默”。

什么是感知机

人类大脑的神经系统相当复杂,其具体的工作机制至今仍是前沿的生物课题。在1957年时由Cornell大学的学者 Frank Rosenblatt 博士所提出的感知机(Perceptron)模型可以认为是对人类神经系统的一个高度简化概括:

其中w和b作为模型的参数。

Frank Rosenblatt 博士恐怕是史上对人工智能贡献最大的心理学家。他的兴趣不仅停留在从数学上抽象出感知机和提出相应的学习算法,还亲自打造了下面这台被称之为Mark I Perceptron的“实体”感知机,其具备512个隐藏单元哦!

当加权求和输入值时,感知机会与0做对比,以确定自己是否处于激发状态。实际的神经元在人脑中数以百亿计。上式中神经元所输出的状态非0即1,而实际在计算机所建立的模型中,往往将其泛化:

f为激活函数(activation function)。

神经网络可以看做是感知机的一种泛化形式,通过递归嵌套及选择不同的激活函数,我们可以不断将原始数据x进行变换,或特征抽取。

通过对上述式子的嵌套,我们可以构造具有更为复杂表达能力的函数。如两层嵌套形式:

注意到感知机实际上相当于采用Step函数作为激活函数。其他常用的激活函数有Sigmoid, Tanh, ReLU等。其中Sigmoid函数

在早期的神经网络研究文献中被广泛使用。目前对于大多非结构化数据,人们发现分段线性(piece-wise linear)函数

具备更好的鲁棒性,并能够更快收敛。常见的激活函数可以参见下表。

常见的神经网络类型

无环结构:
一层神经元的输出作为下一层神经元的输入,信息总是向前反馈。这一类型的神经网络也叫 Feed-forward Nerual Network。卷积网络(Convolutional Nerual Network)也包括在其中。

有环结构:
一层神经元的输出可以作为当前神经元的输入,即产生了反馈循环(feedback loop)。反馈环表示了神经网络的内部状态,使得网络的输出与之前的输入数据相关。如果把时间维度展开的话,有环结构也相当于随着时间走的无环结构。这一类型的神经网络也叫 Recurrent Neural Network (RNN)。

随机梯度下降

对于给定的网络拓扑结构,具体网络参数的确定其实是一个标准的优化问题。我们通过定义一个损失函数(cost function),来衡量当前神经网络的输出与我们期望的输出之间的距离。

我们构造的 Net(x, w) 以 w 为参数的,x 为输入的网络的输出值。而对 w 参数的寻找,在深度学习中最常用的是随机梯度下降法(Stochastic Gradient Descent)。其基本思想仍然是让变量沿着损失函数在目前参数的尽可能下降的方向进行调整

η 称之为学习率,用以控制修改参数的激进程度。后面的讨论中我们会提到,其实严格按照梯方向更新并无必要,只需要确保更新能够降低损失函数即可。这个观察与Liang Huang etc.在前些年所发表的Structured Perceptron with Inexact Search1可以进行类比。

如果我们能够得到参数 w 的 Hessian 矩阵,可以规避选择的问题,但对于只采用梯度这样一阶信息的优化方法,如何选择学习率,是否能利用某个参数的历史更新信息来估算Hessian矩阵等,都是比较有意思的研究问题。有兴趣的朋友可以参考Schaul etc.的 No More Pesky Learning Rates

posted on 2016-06-22 14:27  一天不进步,就是退步  阅读(696)  评论(0)    收藏  举报