感知机的简单理解

一,感知机模型

1,超平面的定义

令w1,w2,...wn,v都是实数(R) ,其中至少有一个wi不为零,由所有满足线性方程w1*x1+w2*x2+...+wn*xn=v

的点X=[x1,x2,...xn]组成的集合,称为空间R的超平面。

从定义可以看出:超平面就是点的集合。集合中的某一点X,与向量w=[w1,w2,...wn]的内积,等于v

特殊地,如果令v等于0,对于训练集中某个点X:

w*X=w1*x1+w2*x2+...+wn*xn>0,将X标记为一类

w*X=w1*x1+w2*x2+...+wn*xn<0,将X标记为另一类

 

2,数据集的线性可分

对于数据集T={(X1, y1),(X2, y2)...(XN, yN)},Xi belongs to Rn,yi belongs to {-1, 1},i=1,2,...N

若存在某个超平面S:w*X=0

将数据集中的所有样本点正确地分类,则称数据集T线性可分。

所谓正确地分类,就是:如果w*Xi>0,那么样本点(Xi, yi)中的 yi 等于1

如果w*Xi<0,那么样本点(Xi, yi)中的 yi 等于-1

因此,给定超平面 w*X=0,对于数据集 T中任何一个点(Xi, yi),都有yi(w*Xi)>0,这样T中所有的样本点都被正确地分类了。

 

如果有某个点(Xi, yi),使得yi(w*Xi)<0,则称超平面w*X对该点分类失败,这个点就是一个误分类的点。

 

3,感知机模型

f(X)=sign(w*X+b),其中sign是符号函数

感知机模型,对应着一个超平面w*X+b=0,这个超平面的参数是(w,b),w是超平面的法向量,b是超平面的截距。

我们的目标是,找到一个(w,b),能够将线性可分的数据集T中的所有的样本点正确地分成两类。

如何找到(w,b)?---感知机学习算法做的事

 

二,感知机学习算法

既然我们的目标是将T中所有的样本点正确地分类,那么对于某个(w,b),先看一下它在哪些点上分类失败了。由前面所述:

如果有某个点(Xi, yi),使得yi(w*Xi)<0,则称超平面w*X对该点分类失败。采用所有误分类的点到超平面的距离来衡量分类失败的程度。

n维空间Rn中一点Xi到超平面w*X+b=0的距离公式:,可参考点到平面的距离公式

 

对于误分类的点,有yi(w*Xi)<0。而距离总是大于0的,因此,某个误分类的点到超平面的距离表示为:

||w||是一个常数,对最小化L(w,b)没有影响,故忽略之。

假设所有的误分类点都在集合M中,得到的损失函数如下:

最终,将寻找(w,b)问题转化为最小化损失函数,即转化为一个最优化问题。(损失函数越小,说明误分类的样本点“越少”---或者说分类失败的程度越低)

而这个优化问题可以用梯度下降法来寻找最优的(w,b)

1,为什么使用梯度下降?(没有解析解,用数值解来求解)

minL(w,b)没有 analytical solution,我的理解是:不能通过数学公式各种推导,最终求得一个关于最优的w 和 b 的解。比如,Stanford CS229课程中cs229-notes1.pdf 中求解 linear regression 的代价函数J(θ)的参数θ,可以使用Normal Equation 方法:直接根据公式得到θ

Gradient descent gives one way of minimizing J. Let’s discuss a second way of doing so, 
this time performing the minimization explicitly and without resorting to an iterative algorithm.

上面说的second way of doing so. second way就是Normal Equation方法

 

梯度下降,则是一种迭代算法,使用不断迭代(w,b)的方式,使得L(w,b)变得越来越小。

另外一个原因是(不知道对不对):在《机器学习基石》视频中讲到NP-Hard问题。

x

 

梯度方向是函数L(w,b)增加最快的方向,而现在要最小化L(w,b),在当前的(w,b)点,从梯度的负方向搜索下一个(w,b)点,那么找到的(w,b)就是使L(w,b)减少的最快的方向上的那个点(还与搜索的步长有关)了。

现在证明为什么梯度方向是函数f(x)增加最快的方向,这里涉及到几个概念:

①梯度

梯度是个向量,由于x=[x1,x2,...xn]是n维的,梯度就是对x的各个分量xi求偏导数:

 

②增加的方向---方向导数

给定一个函数f(x),通俗地讲方向导数就是决定 自变量x 可以往哪个方向移动。比如在f(x)边界上,x往某个方向移动时,就不在定义域的范围内了,那x是不能往该方向变化的。假设 d 是f(x)的一个可行方向,||d||=1,那么函数f 的值在 x 处 沿着方向d 的增长率increase_rate,可以用内积表示:

那么现在,到底往哪个方向增长,能够使 increase_rate 最大呢?也即,d取哪个方向,使 increase_rate 最大?

根据柯西-施瓦兹不等式有:(后面算法的收敛性证明也会用到)

 

也就是说,increase_rate的最大值为:

而当 d = 时,根据内积的定义:

increase_rate等于:    此时,increase_rate取最大值,且可行方向d 就是梯度方向!

 因此,若要最小化L(w,b),往梯度的负方向搜索(w,b),能使L(w,b)下降得最快。

 

根据前面的介绍,梯度实际上是求偏导数,因此L(w,b)分别对w 和 b 求偏导数:

而在感知机中是一次只选择一个误分类点对(w,b)进行迭代更新,选择梯度的方向进行更新,故更新的公式如下所示:

 

 

三,感知机学习算法的收敛性证明

由于数据集T是线性可分的,假设存在一个理想的超平面wopt,且||wopt||=1,wopt能够将T中的所有样本点正确地分类。

如前所述,若正确分类,则对于数据集 T中任何一个点(Xi, yi),都有yi(w*Xi)>0

取r=min{yi(wopt*Xi)}并且令R=max||xi||   ,则迭代次数k满足下列不等式:

具体证明过程见《统计学习方法》p32-p33页

在证明过程中,推导出了两个不等式,一个是:wk*wopt  >=  knr  (k是迭代次数,n是迭代步长,r是min{yi(wopt*Xi))

超平面wopt是理想的超平面,能够完美地将所有的样本点正确地分开。wk是采用感知机学习算法使用梯度下降不断迭代求解的超平面,二者之间的内积,用来衡量这两个超平面的接近程度。因为两个向量的内积越大,说明这两个向量越相似(接近),也就是说:不断迭代后的wk越来越接近理想的超平面wopt了。(向量的模为1,||wopt||=1)

 

第二个不等式是:

 

结合上面的二个不等式,有:

其中第一个不等号成立是因为:wk*wopt  >=  knr 

第二个不等号成立是因为:柯西-施瓦兹不等式

第三个不等号成立是因为:第二个不等式 和 ||wopt||=1

 

四,参考文献

《统计学习方法》

《最优化导论》

 

原文:http://www.cnblogs.com/hapjin/p/6714526.html

posted @ 2017-04-15 19:39 hapjin 阅读(...) 评论(...) 编辑 收藏