支持向量机通俗导论(理解SVM的三层境界)

        支持向量机通俗导论(理解SVM的三层境界)

 

作者:July ;致谢:pluskid、白石、JerryLead。
出处:结构之法算法之道blog。

 

前言

    动笔写这个支持向量机(support vector machine)是费了不少劲和困难的,原因很简单,一者这个东西本身就并不好懂,要深入学习和研究下去需花费不少时间和精力,二者这个东西也不好讲清楚,尽管网上已经有朋友写得不错了(见文末参考链接),但在描述数学公式的时候还是显得不够。得益于同学白石的数学证明,我还是想尝试写一下,希望本文在兼顾通俗易懂的基础上,真真正正能足以成为一篇完整概括和介绍支持向量机的导论性的文章。

    本文在写的过程中,参考了不少资料,包括《支持向量机导论》、《统计学习方法》及网友pluskid的支持向量机系列等等,于此,还是一篇学习笔记,只是加入了自己的理解和总结,有任何不妥之处,还望海涵。全文宏观上整体认识支持向量机的概念和用处,微观上深究部分定理的来龙去脉,证明及原理细节,力保逻辑清晰 & 通俗易懂。

    同时,阅读本文时建议大家尽量使用chrome等浏览器,如此公式才能更好的显示,再者,阅读时可拿张纸和笔出来,把本文所有定理.公式都亲自推导一遍或者直接打印下来(可直接打印网页版或本文文末附的PDF,享受随时随地思考、演算的极致快感),在文稿上演算。

    Ok,还是那句原话,有任何问题,欢迎任何人随时不吝指正 & 赐教,感谢。

 

导论、从人工智能到机器学习

    根据支持向量机导论一书的介绍,人工资能领域的研究者们很早就开始研究了学习问题。Alan Turing在1950年就指出了学习器的思想,以反驳Lady Lovelace的“机器只会做我们指挥它们做的事情”,意思是电脑只会执行人们输入给它的指令,不具备任何学习能力。而Turing则评论道:学习器的一个重要特征便是,其施教者对于内部实际的运转过程中在很大程度上的确是无知的,而受教者的行为在一定程度上却是预测的。仅仅在数年后,初始的学习器便被开发了出来,比如Arthur Samuel的跳棋程序便是强化学习的一个早期例子,Frank Rosenblatt的感知机包含了下一章讲讨论的系统的许多特征。特别要指出,把学习问题建模使其成为适当假设空间中的搜索问题便是人工智能方法的特点。

    学习算法的发展使得它本身成为了人工智能的一个重要的子领域,并最终形成了机器学习这样一个独立的学科。而什么是数据挖掘呢?

    数据挖掘是机器学习、数据库和统计学三者结合的产物,数据挖掘首先要确定挖掘的任务或目的,确定了挖掘任务之后,就要决定使用什么样的挖掘算法,选择了算法之后便可以实施数据挖掘操作,获取有用的信息或模式。其实,很多时候,分类可以被称之为机器学习领域内的一种学习方法,也可以被称之为数据挖掘领域内的一种算法,两者之间,并不是井水不犯河水。

    机器学习是一个不断学习发展加深的过程,正如一个读书人学习SVM的时候,他看书的境界分为三层,如先读数据挖掘导论,而后他觉讲得太浅,于是去读支持向量机导论,甚而,他觉还是不够,于是他去读数据挖掘中的新方法:支持向量机,最后,他又会觉得纸上终觉浅,于是他会尝试去证明它,再继续,他会去写代码如何实现他,然后到了某一天,他还是觉得不够,他总觉得这个算法哪里有缺陷,然后他想着怎么才能去优化他,他甚至会幻想某一天,他也能发明创造出这样一个算法,就好了。

    Ok,扯远了,如上面所述读书人读SVM有几层境界一样,下面,本文就分三层理解SVM的境界慢慢展开此文。

 

第一层、了解SVM

1.0、什么是支持向量机SVM

    然在进入第一层之前,你只需了解什么是支持向量机SVM就够了,而要明白什么是SVM,便得从分类说起。

    分类作为数据挖掘领域中一项非常重要的任务,目前在商业上应用最多(比如分析型CRM里面的客户分类模型,客户流失模型,客户盈利等等,其本质上都属于分类问题)。而分类的目的则是学会一个分类函数或分类模型(或者叫做分类器),该模型能吧数据库中的数据项映射到给定类别中的某一个,从而可以用于预测未知类别。
    说实话,上面这么介绍分类可能你不一定内心十分清楚。我来举个例子吧,比如心脏病的确诊中,如果我要完全确诊某人得了心脏病,那么我必须要进行一些高级的手段,或者借助一些昂贵的机器,那么若我们没有那些高科技医疗机器怎么办?还怎么判断某人是否得了心脏病呢?

    当然了,古代中医是通过望、闻、问、切“四诊”,但除了这些,我们在现代医学里还是可以利用一些比较容易获得的临床指标进行推断某人是否得了心脏病。如作为一个医生,他可以根据他以往诊断的病例对很多个病人(假设是500个)进行彻底的临床检测之后,已经完全确定了哪些病人具有心脏病,哪些没有,同时,在这个诊断的过程中,医生理所当然的记录了他们的年龄,胆固醇等10多项病人的相关指标。那么,以后,医生可以根据这些临床资料,对后来新来的病人通过检测那10多项年龄、胆固醇等指标,以此就能推断或者判定病人是否有心脏病,虽说不能达到100%的标准,但也能达到80、90%的正确率,而这一根据以往临场病例指标分析来推断新来的病例的技术,即成为分类classification技术。

    其实,若叫分类,可能会有人产生误解,以为凡是分类就是把一些东西或样例按照类别给区分开来,实际上,分类方法是一个机器学习的方法,分类也成为模式识别,或者在概率统计中成为判别分析问题,或许会让人们消除此类误解。

    OK,既然讲到了病例诊断这个例子,接下来咱们就以这个例子来简单分析下SVM。
假定是否患有心脏病与病人的年龄和胆固醇水平密切相关,下表对应10个病人的临床数据(年龄用[x1]表示,胆固醇水平用[x2]表示):

    这样,问题就变成了一个在二维空间上的分类问题,可以在平面直角坐标系中描述如下:根据病人的两项指标和有无心脏病,把每个病人用一个样本点来表示,有心脏病者用“+”形点表示,无心脏病者用圆形点,如下图所示:

 

    如此我们很明显的看到,是可以在平面上用一条直线把圆点和“+”分开来的。当然,事实上,还有很多线性不可分的情况,下文将会具体描述。

 

    So,本文将要介绍的支持向量机SVM算法便是一种分类方法。

  • 所谓支持向量机,顾名思义,分为两个部分了解,一什么是支持向量(简单来说,就是支持 or 支撑平面上把两类类别划分开来的超平面的向量点,下文将具体解释),二这里的“机”是什么意思。我先来回答第二点:这里的“机(machine,机器)”便是一个算法。在机器学习领域,常把一些算法看做是一个机器,如分类机(当然,也叫做分类器),而支持向量机本身便是一种监督式学习的方法(什么是监督学习与非监督学习,请参见第一篇),它广泛的应用于统计分类以及回归分析中。

    对于不想深究SVM原理的同学(比如就只想看看SVM是干嘛的),那么,了解到这里便足够了,不需上层。而对于那些喜欢深入研究一个东西的同学,甚至究其本质的,咱们则还有很长的一段路要走,万里长征,咱们开始迈第一步吧(相信你能走完)。

1.1、线性分类

    OK,在讲SVM之前,咱们必须先弄清楚一个概念:线性分类器。

 

  • 这里我们考虑的是一个两类的分类问题,数据点用 x 来表示,这是一个 n 维向量,而类别用 y 来表示,可以取 1 或者 -1 ,分别代表两个不同的类。一个线性分类器就是要在 n 维的数据空间中找到一个超平面其方程可以表示为:

     

    wTx+b=0

    但即使我已经给出了线性分类器的定义及公式,相信,仍然是有相当一部分读者是不知所谓的超平面(w,b)中w,和b所指是何物的?但本文尽量不留遗漏,以期尽量将有必要了解的技术细节原原本本的和盘托出,如下:

 

  • 上面已经说过,两类问题的分类通常用一个实值函数f:(R^n即指n唯平面)按照这样的方式操作:当f(x)>=0,输入想x=(x1,...xn)‘赋给正类,否则赋给负类,考虑当f(x),x属于X是线性函数的情况,函数可以写为:f(x)=<w,b> + b。这个式子的几何解释是,<w,x>+b=0所定义的超平面讲输入空间X(各种点)分为两半。
  • 也就是说,超平面是维数为n-1的仿射子空间,它将空间分为两部分,这两部分对应输入中两类不同的点,对应着超平面上面的正区域和超平面下面的负区域,当b的值变化时,超平面平行于自身移动,示意图如下(注意体会途中w,b的几何意义,我之前曾以为在实际应用SVM的过程中,所谓调参就是调这里的w,b,而后意识到其实不是如此,而是如Wind所说的,核函数的选择、惩罚因子C的大小,或者比如采用高斯核函数的时候,参数主要是核函数的\gamma变量以及权衡系数C):

 

1.2、线性分类的一个例子

    来理论可能读者看不懂,咱们来直接举一个例子吧,且举最简单的例子,一个二维平面(一个超平面,在二维空间中的例子就是一条直线),如下图所示,平面上有两种不同的点,分别用两种不同的颜色表示,一种为红颜色的点,另一种则为蓝颜色的点,红颜色的线表示一个可行的超平面。

    从上图中我们可以看出,这条红颜色的线把红颜色的点和蓝颜色的点分开来了。而这条红颜色的线就是我们上面所说的超平面,而现在的情况是,这个所谓的超平面的的确确便把这两种不同颜色的点分隔开来,换句话说,事实上,是存在这样一个超平面可以把两类数据分隔开来的,比如,在超平面一边的数据点所对应的 y 全是 -1 ,而在另一边全是 1 。具体来说,我们可以令 f(x)=wTx+b ,显然,如果 f(x)=0 ,那么 x 是位于超平面上的点。我们不妨要求对于所有满足 f(x)<0 的点,其对应的 y 等于 -1 ,而 f(x)>0 则对应 y=1 的数据点。

 

  • 当然,有些时候(或者说大部分时候)数据并不是线性可分的,这个时候满足这样条件的超平面就根本不存在(不过关于如何处理这样的问题我们后面会讲),这里先从最简单的情形开始推导,就假设数据都是线性可分的,亦即这样的超平面是存在的。

 

    更进一步,我们在进行分类的时候,将数据点 x代入 f(x) 中,如果得到的结果小于 0 ,则赋予其类别 -1 ,如果大于 0 则赋予类别 1 。如果 f(x)=0,则很难办了,分到哪一类都不是(后续会说明此种情况)。

1.3、Functional margin与Geometrical margin 

    从几何直观上来说,由于超平面是用于分隔两类数据的,越接近超平面的点越“难”分隔,因为如果超平面稍微转动一下,它们就有可能跑到另一边去。反之,如果是距离超平面很远的点,例如图中的右上角或者左下角的点,则很容易分辩出其类别。

    结合上图,我们直接定义 functional margin 为 γˆ=y(wTx+b)=yf(x),注意前面乘上类别 y 之后可以保证这个 margin 的非负性(因为 f(x)<0 对应于 y=1 的那些点),而点到超平面的距离定义为 geometrical margin 。

 

  • functional margin 为 γˆ=y(wTx+b)=yf(x)的解释:上面直接给出它的定义并没有说明来由,其实这是有来头的。一般来说,我们定义:样例(xi,yi)对应于超平面(w,b)的函数的间隔量为:γˆ=y(wTx+b)。注意,γˆ>0意味着(xi,yi)被正确分类,超平面(w,b)对应于训练集S的函数的间隔分布就是训练集S中样例的间隔分布。有时,所谓间隔分布的最小值指超平面(w,b)对应于训练集S的函数的间隔。最终,训练集S的间隔是在所有超平面上的最大几何间隔,实现这个最大间隔的超平面称之为最大间隔超平面,对于线性可分的训练集来说,间隔的值都讲是正值。下图是xi,xj分别到超平面的几个间隔距离γi,γj:

    下面不妨来看看functional margin与geometrical margin二者之间的关系。如图所示,对于一个点 x ,令其垂直投影到超平面上的对应的为 x0 ,由于 w 是垂直于超平面的一个向量,我们有

 

x=x0+γww

 

    又由于 x0 是超平面上的点,满足 f(x0)=0 ,代入超平面的方程即可算出(别忘了,上面γˆ的定义,γˆ=y(wTx+b)=yf(x)): γ

 

γ=wTx+bw=f(x)w

 

  • OK,我来推到下上述式子的代入过程:因为f(x)=w^T+b,把x=x0+r*w/||w||代入f(x)得,f(x)=f(x。+r *w / ||w||) = w^T(x0+ r* w/ ||w||) +b = w^T*x0 + w^T*r*w/ ||w|| + b = w^T*r*w/||w||=r*||w||,所以γ=f(x)/||w||=(w^T*b)/||w||。证毕。

 

    不过,这里的 γ 是带符号的,我们需要的只是它的绝对值,因此类似地,也乘上对应的类别 y即可,因此实际上我们定义 geometrical margin 为:

 

γ˜=yγ=γˆw

 

  • 因为γˆ=y(wTx+b)=yf(x),所以γ˜=yγ=(y*f(x))/||w||=γˆ/||w||。

1.4、最大间隔分类器Maximum Margin Classifier的定义

    通过上文,我们已经很明显的看出,functional margin 和 geometrical margin 相差一个 w 的缩放因子。按照我们前面的分析,对一个数据点进行分类,当它的 margin 越大的时候,分类的 confidence 越大。对于一个包含 n 个点的数据集,我们可以很自然地定义它的 margin 为所有这 n 个点的 margin 值中最小的那个。于是,为了使得分类的 confidence 高,我们希望所选择的 hyper plane 能够最大化这个 margin 值。

    不过这里我们有两个 margin 可以选,不过 functional margin 明显是不太适合用来最大化的一个量,因为在 hyper plane 固定以后,我们可以等比例地缩放 w 的长度和 b 的值,这样可以使得 f(x)=wTx+b 的值任意大,亦即 functional margin γˆ 可以在 hyper plane 保持不变的情况下被取得任意大,而 geometrical margin 则没有这个问题,因为除上了 w 这个分母,所以缩放 w 和 b 的时候 γ˜ 的值是不会改变的,它只随着 hyper plane 的变动而变动,因此,这是更加合适的一个 margin 。这样一来,我们的 maximum margin classifier 的目标函数即定义为

 

maxγ˜

 

    当然,还需要满足一些条件,根据 margin 的定义,我们有

 

yi(wTxi+b)=γˆiγˆ,i=1,,n

 

    其中 γˆ=γ˜w ,根据我们刚才的讨论,即使在超平面固定的情况下,γˆ 的值也可以随着 w 的变化而变化。由于我们的目标就是要确定超平面,因此可以把这个无关的变量固定下来,固定的方式有两种:一是固定 w ,当我们找到最优的 γ˜ 时 γˆ 也就可以随之而固定;二是反过来固定 γˆ ,此时 w 也可以根据最优的 γ˜ 得到。处于方便推导和优化的目的,我们选择第二种,令 γˆ=1 ,则我们的目标函数化为

 

max1w,s.t.,yi(wTxi+b)1,i=1,,n

 

    通过求解这个问题,我们就可以找到一个 margin 最大的 classifier ,如下图所示,中间的红色线条是 Optimal Hyper Plane ,另外两条线到红线的距离都是等于 γ˜ 的( γ˜ 便是上文所定义的geometrical margin)

    到此,算是完成了 Maximum Margin Classifier 的介绍,通过最大化 margin ,我们使得该分类器对数据进行分类时具有了最大的 confidence 。OK,可能你还是不很清楚:这个最大分类间隔期到底是用来干嘛的呢?很简单,SVM 通过使用最大分类间隙Maximum Margin Classifier 来设计决策最优分类超平面,以获得良好的推广能力。

    很快,你就会发现,用SVM 实现主动学习, 采取何种采样算法是关键, 如何选择新的样本进行评价直接关系到整个算法的性能. 另外, 交互SVM 法需要一些初始样本进行最初分类器的设计, 一般可以通过先验知识或随机采样得到. 例如, 在文本分类中, 可以通过关键词匹配的方法进行挑选。
    通过上文的介绍,我想你已经清楚SVM具体算法流程,如下所示:

  1. 根据初始条件构造初始训练样本集, 保证至少包含有一个正例样本和一个负例样本;
  2. 根据已知训练样本集寻找最优分类超平面, 设计SVM 分类器;
  3. 如果与分界面邻近的缝隙中仍有样本点, 则选择离分类边界最近的样本进行评价, 将该样本加入训练样本集, 并回到第2 步;
  4. 从全部训练样本中重复随机选择一个样本进行评价, 并将该样本加入训练集(对已评价过的样本只计数, 不用再次评价) , 利用分类器对样本进行评价, 若分类器的评价结果与真实评价不一致, 则回到第2 步;
  5. 重复第4 步, 若连续N 次评价一致, 算法停止.

    So,对于什么是Support Vector Machine ,我们可以先这样理解,如上图所示,我们可以看到 hyper plane 两边的那个 gap 分别对应的两条平行的线(在高维空间中也应该是两个 hyper plane)上有一些点,显然两个 hyper plane 上都会有点存在,否则我们就可以进一步扩大 gap ,也就是增大 γ˜ 的值了。这些点,就叫做 support vector。

1.5、到底什么是Support Vector

    上节,我们介绍了Maximum Margin Classifier,但并没有具体阐述到底什么是Support Vector,本节,咱们来重点阐述这个概念。咱们不妨先来回忆一下上次最后一张图:

 

 

 

 

 

    可以看到两个支撑着中间的 gap 的超平面,它们到中间的纯红线 separating hyper plane 的距离相等,即我们所能得到的最大的 geometrical margin γ˜ 。而“支撑”这两个超平面的必定会有一些点,而这些“支撑”的点便叫做支持向量Support Vector。

    很显然,由于这些 supporting vector 刚好在边界上,所以它们是满足 y(wTx+b)=1 (还记得我们把 functional margin 定为 1 了吗?上节中:“处于方便推导和优化的目的,我们选择第二种,令 γˆ=1),而对于所有不是支持向量的点,也就是在“阵地后方”的点,则显然有 y(wTx+b)>1 。事实上,当最优的超平面确定下来之后,这些后方的点就完全成了路人甲了,它们可以在自己的边界后方随便飘来飘去都不会对超平面产生任何影响。这样的特性在实际中有一个最直接的好处就在于存储和计算上的优越性,例如,如果使用 100 万个点求出一个最优的超平面,其中是 supporting vector 的有 100 个,那么我只需要记住这 100 个点的信息即可,对于后续分类也只需要利用这 100 个点而不是全部 100 万个点来做计算。(当然,通常除了 K-Nearest Neighbor 之类的 Memory-based Learning 算法,通常算法也都不会直接把所有的点记忆下来,并全部用来做后续 inference 中的计算。不过,如果算法使用了 Kernel 方法进行非线性化推广的话,就会遇到这个问题了。Kernel 方法在第三节介绍)。

1.6、SVM的简化版SMO算法

    上面讲得有点散乱,接下来,我引用一位网友的比较简洁连贯的语言总结下SVM的简化版SMO算法,如下(如果你暂时不是看得很懂,没关系,本文剩下部分会进一步阐释):

 

    一个SVM简化版SMO算法的目的无非是找出一个函数f(x),这个函数能让我们把输入的数据x进行分类。既然是分类肯定需要一个评判的标准,比如分出来有两种情况A和B,那么怎么样才能说x是属于A类的,或不是B类的呢?就是需要有个边界,就好像两个国家一样有边界,如果边界越明显,则就越容易区分,因此,我们的目标是最大化边界的宽度(或者如上问1.4节所说的最大间隔分类器),使得非常容易的区分是A类还是B类。

    在SVM中,要最大化边界则需要最小化这个数值:

(注,这个式子等价于下文2.4节中的    )

  1. w:是参量,值越大边界越明显 
  2. C代表惩罚系数,即如果某个x是属于某一类,但是它偏离了该类,跑到边界上后者其他类的地方去了,C越大表明越不想放弃这个点,边界就会缩小
  3. 代表:松散变量

    但问题似乎还不好解,又因为SVM是一个凸二次规划问题,凸二次规划问题有最优解,于是问题转换成下列形式(KKT条件):

     上面的ai是拉格朗日乘子(问题通过拉格朗日乘法数来求解):

  • 对于(a)的情况,表明ai是正常分类,在边界内部(我们知道正确分类的点yi*f(xi)>=0)
  • 对于(b)的情况,表明了ai是支持向量,在边界上
  • 对于(c)的情况,表明了ai是在两条边界之间

    而最优解需要满足KKT条件,即需要(a)(b)(c)条件都满足。但若有以下几种情况出现将会出现不满足:

  1. yiui>=1但是ai>0则是不满足的而原本ai=0
  2. yiui=1但是ai=0或者ai=C则表明不满足的,而原本应该是0<ai<C
  3. yiui<=1但是ai<C则是不满足的,而原本ai=C

    所以要找出不满足KKT的这些ai,并更新这些ai,但这些ai又受到另外一个约束,即

 

  

 

    因此,我们通过另一个方法,即同时更新ai和aj,满足以下等式 

 

 

    就能保证和为0的约束。

 

同时,利用yiai+yjaj=常数,消去ai,可得到一个关于单变量aj的一个凸二次规划问题,不考虑其约束0<=aj<=C,可以得其解为: 

 

    这里表示旧值,然后考虑约束0<=aj<=C可得到a的解析解为:

 

        

 

    对于

    那么如何求得ai和aj呢?

    对于ai,即第一个乘子,可以通过刚刚说的那几种不满足KKT的条件来找,第二个乘子aj可以找满足条件 

 

 

b的更新:

    在满足条件:下更新b。

    最后更新所有ai,y和b,这样模型就出来了,然后通过函数:

 

    输入是x,是一个数组,组中每一个值表示一个特征。

    输出是A类还是B类(正类还是负类)。SVM的简单实现的话,可以看看这里(本节的总结也来自它)。

    OK,到此为止,算是了解到了SVM的第一层,对于那些只关心怎么用SVM的同学便已足够,不必再更进一层深究其更深的原理。

 

第二层、深入SVM

2.1、从线性可分到线性不可分

    当然,除了在上文中所介绍的从几何直观上之外,支持向量的概念也可以从其优化过程的推导中得到。虽然上文1.4节给出了目标函数,却没有讲怎么来求解。现在就让我们来处理这个问题。回忆一下之前得到的目标函数:

 

 

max1ws.t.,yi(wTxi+b)1,i=1,,n

 

 

    这个问题等价于(在这里加上平方,一个系数,显然这两个问题是等价的):

 

 

min12w2s.t.,yi(wTxi+b)1,i=1,,n

 

 

  1. 到这个形式以后,就可以很明显地看出来,它是一个凸优化问题,或者更具体地说,它是一个二次优化问题——目标函数是二次的,约束条件是线性的。这个问题可以用任何现成的 QP (Quadratic Programming) 的优化包进行求解。所以,我们的问题到此为止就算全部解决了。
  2. 虽然这个问题确实是一个标准的 QP 问题,但是它也有它的特殊结构,通过 Lagrange Duality 变换到对偶变量 (dual variable) 的优化问题之后,可以找到一种更加有效的方法来进行求解——这也是 SVM 盛行的一大原因,通常情况下这种方法比直接使用通用的 QP 优化包进行优化要高效得多。此外,在推导过程中,许多有趣的特征也会被揭露出来,包括刚才提到的 supporting vector 的问题。

    至于上述提到,关于什么是Lagrange duality,简单地来说,通过给每一个约束条件加上一个 Lagrange multiplier,我们可以将它们融和到目标函数里去

 

 

L(w,b,α)=12w2i=1nαi(yi(wTxi+b)1)

 

 

    然后我们令

 

θ(w)=maxαi0L(w,b,α)

    容易验证,当某个约束条件不满足时,例如 yi(wTxi+b)<1,那么我们显然有 θ(w)=(只要令 αi= 即可)。而当所有约束条件都满足时,则有 θ(w)=12w2 ,    亦即我们最初要最小化的量。因此,在要求约束条件得到满足的情况下最小化 12w2    实际上等价于直接最小化 θ(w)     (当然,这里也有约束条件,就是 αi0,i=1,,n)   ,因为如果约束条件没有得到满足,θ(w)     会等于无穷大,自然不会是我们所要求的最小值。具体写出来,我们现在的目标函数变成了:

 

 

minw,bθ(w)=minw,bmaxαi0L(w,b,α)=p

 

    这里用 p 表示这个问题的最优值,这个问题和我们最初的问题是等价的。不过,现在我们来把最小和最大的位置交换一下:

 

maxαi0minw,bL(w,b,α)=d

 

    当然,交换以后的问题不再等价于原问题,这个新问题的最优值用 d 来表示。并,我们有 dp ,这在直观上也不难理解,最大值中最小的一个总也比最小值中最大的一个要大吧!  总之,第二个问题的最优值 d 在这里提供了一个第一个问题的最优值 p 的一个下界,在满足某些条件的情况下,这两者相等,这个时候我们就可以通过求解第二个问题来间接地求解第一个问题。具体来说,就是要满足 KKT 条件,这里暂且先略过不说,直接给结论:我们这里的问题是满足 KKT 条件的,因此现在我们便转化为求解第二个问题。

    首先要让 L 关于 w 和 b 最小化,我们分别令 L/w 和 L/b 等于零:

 

 

 

Lw=0Lb=0w=i=1nαiyixii=1nαiyi=0

 

 

    带回 L 得到:

 

L(w,b,α)=12i,j=1nαiαjyiyjxTixji,j=1nαiαjyiyjxTixjbi=1nαiyi+i=1nαi=i=1nαi12i,j=1nαiαjyiyjxTixj

 

    此时我们得到关于 dual variable α 的优化问题:

 

 

    如前面所说,这个问题有更加高效的优化算法,不过具体方法在这里先不介绍,让我们先来看看推导过程中得到的一些有趣的形式。首先就是关于我们的 hyper plane ,对于一个数据点 x 进行分类,实际上是通过把 x 带入到 f(x)=wTx+b      算出结果然后根据其正负号来进行类别划分的。而前面的推导中我们得到 




      w=ni=1αiyixi
 ,

    因此分类函数[1]为:

 

 

f(x)=(i=1nαiyixi)Tx+b=i=1nαiyixi,x+b

 

    

    

    这里的形式的有趣之处在于,对于新点 x的预测,只需要计算它与训练数据点的内积即可(,表示向量内积),这一点至关重要,是之后使用 Kernel 进行非线性推广的基本前提。此外,所谓 Supporting Vector 也在这里显示出来——事实上,所有非 Supporting Vector 所对应的系数 α 都是等于零的,因此对于新点的内积计算实际上只要针对少量的“支持向量”而不是所有的训练数据即可。

    为什么非支持向量对应的 α 等于零呢?直观上来理解的话,就是这些“后方”的点——正如我们之前分析过的一样,对超平面是没有影响的,由于分类完全有超平面决定,所以这些无关的点并不会参与分类问题的计算,因而也就不会产生任何影响了。这个结论也可由刚才的推导中得出,回忆一下我们刚才通过 Lagrange multiplier 得到的目标函数:

 

 

maxαi0L(w,b,α)=maxαi012w2i=1nαi(yi(wTxi+b)1)

 

 

     注意到如果 xi 是支持向量的话,上式中红颜色的部分是等于 0 的(因为支持向量的 functional margin 等于 1 ),而对于非支持向量来说,functional margin 会大于 1 ,因此红颜色部分是大于零的,而 αi 又是非负的,为了满足最大化,αi 必须等于 0 。这也就是这些非 Supporting Vector 的点的局限性。 

    把上述所有这些东西整合起来,便得到了一个maximum margin hyper plane classifier,这就是所谓的支持向量机(Support Vector Machine)。当然,到目前为止,我们的 SVM 还比较弱,只能处理线性的情况,不过,在得到了 dual 形式之后,通过 Kernel 推广到非线性的情况就变成了一件非常容易的事情了。

2.2、核函数Kernel

    咱们首先给出核函数的来头:

 

  • 在上文中,我们已经了解到了SVM处理线性可分的情况,而对于非线性的情况,SVM 的处理方法是选择一个核函数 κ(,) ,通过将数据映射到高维空间,来解决在原始空间中线性不可分的问题。由于核函数的优良品质,这样的非线性扩展在计算量上并没有比原来复杂多少,这一点是非常难得的。当然,这要归功于核方法——除了 SVM 之外,任何将计算表示为数据点的内积的方法,都可以使用核方法进行非线性扩展。

    也就是说,Minsky和Papert早就在20世纪60年代就已经明确指出线性学习器计算能力有限。为什么呢?因为总体上来讲,现实世界复杂的应用需要有比线性函数更富有表达能力的假设空间,也就是说,目标概念通常不能由给定属性的简单线性函数组合产生,而是应该一般地寻找待研究数据的更为一般化的抽象特征。

    而下文我们将具体介绍的核函数则提供了此种问题的解决途径,从下文你将看到,核函数通过把数据映射到高维空间来增加第一节所述的线性学习器的能力,使得线性学习器对偶空间的表达方式让分类操作更具灵活性和可操作性。我们知道,训练样例一般是不会独立出现的,它们总是以成对样例的内积形式出现,而用对偶形式表示学习器的优势在为在该表示中可调参数的个数不依赖输入属性的个数,通过使用恰当的核函数来替代内积,可以隐式得将非线性的训练数据映射到高维空间,而不增加可调参数的个数(当然,前提是核函数能够计算对应着两个输入特征向量的内积)。

    1、简而言之:在线性不可分的情况下,支持向量机通过某种事先选择的非线性映射(核函数)将输入变量映射到一个高维特征空间,在这个空间中构造最优分类超平面。我们使用SVM进行数据集分类工作的过程首先是同预先选定的一些非线性映射将输入空间映射到高维特征空间:
    使得在高维属性空间中有可能最训练数据实现超平面的分割,避免了在原输入空间中进行非线性曲面分割计算。SVM数据集形成的分类函数具有这样的性质:它是一组以支持向量为参数的非线性函数的线性组合,因此分类函数的表达式仅和支持向量的数量有关,而独立于空间的维度,在处理高维输入空间的分类时,这种方法尤其有效,其工作原理如下图所示:

    
    2、具体点说:在我们遇到核函数之前,如果用原始的方法,那么在用线性学习器学习一个非线性关系,需要选择一个非线性特征集,并且将数据写成新的表达形式,这等价于应用一个固定的非线性映射,将数据映射到特征空间,在特征空间中使用线性学习器,因此,考虑的假设集是这种类型的函数:
    这里ϕ:X->F是从输入空间到某个特征空间的映射,这意味着建立非线性学习器分为两步:
  1. 首先使用一个非线性映射将数据变换到一个特征空间F,
  2. 然后在特征空间使用线性学习器分类。
    在上文我提到过对偶形式,而这个对偶形式就是线性学习器的一个重要性质,这意味着假设可以表达为训练点的线性组合,因此决策规则可以用测试点和训练点的内积来表示:
    如果有一种方式可以在特征空间中直接计算内积φ(xi · φ(x),就像在原始输入点的函数中一样,就有可能将两个步骤融合到一起建立一个非线性的学习器,这样直接计算法的方法称为核函数方法,于是,核函数便横空出世了。
    这里我直接给出一个定义:核是一个函数K,对所有x,z(-X,满足,这里φ是从X到内积特征空间F的映射。
    3、总而言之,举个简单直接点的例子,则是如果不是用核技术,就会先计算线性映射phy(x1)和phy(x2),然后计算这两个特征的内积,使用了核技术之后,先把phy(x1)和phy(x2)的通用表达式子:< phy(x1),phy(x2) >=k( <x1,x2> )计算出来,注意到这里的< , >表示内积,k( , )就是对应的核函数,这个表达往往非常简单,所以计算非常方便。
    ....
    OK,接下来,咱们就进一步从外到里,来探探这个核函数的真面目。

2.2.1、如何处理非线性数据

    在2.1节中我们介绍了线性情况下的支持向量机,它通过寻找一个线性的超平面来达到对数据进行分类的目的。不过,由于是线性方法,所以对非线性的数据就没有办法处理了。举个例子来说,则是如下图所示的两类数据,分别分布为两个圆圈的形状,这样的数据本身就是线性不可分的,你准备如何把这两类数据分开呢(下文将会有一个相应的三维空间图)?

 

    上图所述的这个数据集,就是用两个半径不同的圆圈加上了少量的噪音生成得到的,所以,一个理想的分界应该是一个“圆圈”而不是一条线(超平面)。如果用 X1 和 X2 来表示这个二维平面的两个坐标的话,我们知道一条二次曲线(圆圈是二次曲线的一种特殊情况)的方程可以写作这样的形式:

 

 

a1X1+a2X21+a3X2+a4X22+a5X1X2+a6=0

 

    注意上面的形式,如果我们构造另外一个五维的空间,其中五个坐标的值分别为 Z1=X1Z2=X21Z3=X2Z4=X22Z5=X1X2,那么显然,上面的方程在新的坐标系下可以写作:

 

 

i=15aiZi+a6=0

 

    关于新的坐标 Z ,这正是一个 hyper plane 的方程!也就是说,如果我们做一个映射 ϕ:R2R5 ,将 X 按照上面的规则映射为 Z ,那么在新的空间中原来的数据将变成线性可分的,从而使用之前我们推导的线性分类算法就可以进行处理了。这正是 Kernel 方法处理非线性问题的基本思想。

2.2.2、特征空间的隐式映射:核函数

    再进一步描述 Kernel 的细节之前,不妨再来看看这个例子映射过后的直观例子。当然,你我可能无法把 5 维空间画出来,不过由于我这里生成数据的时候就是用了特殊的情形,具体来说,我这里的超平面实际的方程是这个样子(圆心在 X2 轴上的一个正圆):

 

 

a1X21+a2(X2c)2+a3=0

 

    因此我只需要把它映射到 Z1=X21Z2=X22Z3=X2 这样一个三维空间中即可,下图即是映射之后的结果,将坐标轴经过适当的旋转,就可以很明显地看出,数据是可以通过一个平面来分开的:

    

    现在让我们再回到 SVM 的情形,假设原始的数据时非线性的,我们通过一个映射 ϕ() 将其映射到一个高维空间中,数据变得线性可分了,这个时候,我们就可以使用原来的推导来进行计算,只是所有的推导现在是在新的空间,而不是原始空间中进行。当然,推导过程也并不是可以简单地直接类比的,例如,原本我们要求超平面的法向量 w ,但是如果映射之后得到的新空间的维度是无穷维的(确实会出现这样的情况,比如后面会提到的 高斯核Gaussian Kernel ),要表示一个无穷维的向量描述起来就比较麻烦。于是我们不妨先忽略过这些细节,直接从最终的结论来分析,回忆一下,我们上一次2.1节中得到的最终的分类函数[1]是这样的:

 

 

f(x)=i=1nαiyixi,x+b

 

    现在则是在映射过后的空间,即:

 

 

f(x)=i=1nαiyiϕ(xi),ϕ(x)+b

 

    而其中的 α 也是通过求解如下 dual 问题而得到的:

 

 

 

 

maxαs.t.,i=1nαi12i,j=1nαiαjyiyjϕ(xi),ϕ(xj)αi0,i=1,,ni=1nαiyi=0

 



 

    这样一来问题就解决了吗?似乎是的:拿到非线性数据,就找一个映射 ,然后一股脑把原来的数据映射到新空间中,再做线性 SVM 即可。不过事实上没有这么简单!其实刚才的方法稍想一下就会发现有问题:在最初的例子里,我们对一个二维空间做映射,选择的新空间是原始空间的所有一阶和二阶的组合,得到了五个维度;如果原始空间是三维,那么我们会得到 19 维的新空间,这个数目是呈爆炸性增长的,这给 的计算带来了非常大的困难,而且如果遇到无穷维的情况,就根本无从计算了。所以就需要 Kernel 出马了。

    不妨还是从最开始的简单例子出发,设两个向量 ,而 即是到前面说的五维空间的映射,因此映射过后的内积为:

    另外,我们又注意到:

    二者有很多相似的地方,实际上,我们只要把某几个维度线性缩放一下,然后再加上一个常数维度,具体来说,上面这个式子的计算结果实际上和映射

    之后的内积 的结果是相等的(自己验算一下)。区别在于什么地方呢?

 

  1. 一个是映射到高维空间中,然后再根据内积的公式进行计算;
  2. 而另一个则直接在原来的低维空间中进行计算,而不需要显式地写出映射后的结果

 

    回忆刚才提到的映射的维度爆炸,在前一种方法已经无法计算的情况下,后一种方法却依旧能从容处理,甚至是无穷维度的情况也没有问题。

    我们把这里的计算两个向量在隐式映射过后的空间中的内积的函数叫做核函数 (Kernel Function) ,例如,在刚才的例子中,我们的核函数为:

    核函数能简化映射空间中的内积运算——刚好“碰巧”的是,在我们的 SVM 里需要计算的地方数据向量总是以内积的形式出现的。对比刚才我们上面写出来的式子,现在我们的分类函数[2]为:

    其中 由如下 dual 问题计算而得:

    这样一来计算的问题就算解决了,避开了直接在高维空间中进行计算,而结果却是等价的!当然,因为我们这里的例子非常简单,所以我可以手工构造出对应于 的核函数出来,如果对于任意一个映射,想要构造出对应的核函数就很困难了。

    最理想的情况下,我们希望知道数据的具体形状和分布,从而得到一个刚好可以将数据映射成线性可分的 ,然后通过这个 得出对应的 进行内积计算。然而,第二步通常是非常困难甚至完全没法做的。不过,由于第一步也是几乎无法做到,因为对于任意的数据分析其形状找到合适的映射本身就不是什么容易的事情,所以,人们通常都是“胡乱”选择映射的,所以,根本没有必要精确地找出对应于映射的那个核函数,而只需要“胡乱”选择一个核函数即可——我们知道它对应了某个映射,虽然我们不知道这个映射具体是什么。由于我们的计算只需要核函数即可,所以我们也并不关心也没有必要求出所对应的映射的具体形式。 

    当然,说是“胡乱”选择,其实是夸张的说法,因为并不是任意的二元函数都可以作为核函数,所以除非某些特殊的应用中可能会构造一些特殊的核(例如用于文本分析的文本核,注意其实使用了 Kernel 进行计算之后,其实完全可以去掉原始空间是一个向量空间的假设了,只要核函数支持,原始数据可以是任意的“对象”——比如文本字符串),通常人们会从一些常用的核函数中选择(根据问题和数据的不同,选择不同的参数,实际上就是得到了不同的核函数),例如:

  • 多项式核 ,显然刚才我们举的例子是这里多项式核的一个特例()。虽然比较麻烦,而且没有必要,不过这个核所对应的映射实际上是可以写出来的,该空间的维度是 ,其中 是原始空间的维度。
  • 高斯核 ,这个核就是最开始提到过的会将原始空间映射为无穷维空间的那个家伙。不过,如果 选得很大的话,高次特征上的权重实际上衰减得非常快,所以实际上(数值上近似一下)相当于一个低维的子空间;反过来,如果 选得很小,则可以将任意的数据映射为线性可分——当然,这并不一定是好事,因为随之而来的可能是非常严重的过拟合问题。不过,总的来说,通过调控参数 ,高斯核实际上具有相当高的灵活性,也是使用最广泛的核函数之一。
  • 线性核 ,这实际上就是原始空间中的内积。这个核存在的主要目的是使得“映射后空间中的问题”和“映射前空间中的问题”两者在形式上统一起来了。

2.2.3、核函数的直白总结

    简单点来说,上面讲了那么多,其实无非就是讲的以下这些内容,
输入空间       =>             特征空间
     X                      F={ϕ(x):x(-X}
 
    咱再举一个例子,如下form Wind
    1、比如我们做一个分类问题,例如垃圾邮件分类 ,我们收集了一些特征,这样每一个邮件用一个特征向量表示,现在要训练一个模型去预测未来的邮件哪些是垃圾邮件,一种方法是,我们先手工标注一下哪些邮件是垃圾邮件,哪些是正常的,这样,我们每一个邮件转换成一个(x,y)的pair ,x就是特征向量,y就是0或者1,对应是不是垃圾邮件。
  • 线性的模型是说,希望找到一个分类器f,使得f(x)=y ,注意,这里是在原始的特征空间里面直接做分类 
  • 非线性的模型是说,我能不能找到一个非线性的映射函数phy() ,先把特征线性x映射到一个新的空间去,然后在那分类 ,那么就是找个新的函数g,使得g( phy(x) )=y,这里phy(x)就是把x从原始空间经过非线性的映射到了新的空间 ,那么一般在求解分类器g的时候,需要计算新的空间里面的内积 《phy(x1),phy(x2),而之所以要计算内积,是因为分类器g的求解,最后一般转化为内积《phy(x1),phy(x2)》的表达式,所以知道了内积,才能求得分类器的解。
    2、那核函数的方法意思就是,你不要直接去计算内积《phy(x1),phy(x2)》了,本来非线性的映射phy就很复杂,你直接计算很麻烦,我直接告诉你内积《phy(x1),phy(x2)》=k(《x1,x2》) ,k()是跟非线性的核映射对应的核函数 ,k()对应于phy() ,就这么简单。
    3、也就是说,如果原始空间的数据线性不可分,那么我们期望通过核映射将数据映射到高维核空间去,在核空间里面数据是线性可分的,然后我们在高维核空间再训练一个线性的分类器即可。这就是为什么核映射需要升高维数的原因,映射是对应于核函数的,你用核函数计算核空间的内积时,本质上已经使用了映射了,但是你不需要知道它。 
 

2.3、使用松弛变量处理 outliers 方法

 

    在本文第一节最开始讨论支持向量机的时候,我们就假定,数据是线性可分的,亦即我们可以找到一个可行的超平面将数据完全分开。后来为了处理非线性数据,在上文2.2节使用 Kernel 方法对原来的线性 SVM 进行了推广,使得非线性的的情况也能处理。虽然通过映射 将原始数据映射到高维空间之后,能够线性分隔的概率大大增加,但是对于某些情况还是很难处理。例如可能并不是因为数据本身是非线性结构的,而只是因为数据有噪音。对于这种偏离正常位置很远的数据点,我们称之为 outlier ,在我们原来的 SVM 模型里,outlier 的存在有可能造成很大的影响,因为超平面本身就是只有少数几个 support vector 组成的,如果这些 support vector 里又存在 outlier 的话,其影响就很大了。例如下图:

    用黑圈圈起来的那个蓝点是一个 outlier ,它偏离了自己原本所应该在的那个半空间,如果直接忽略掉它的话,原来的分隔超平面还是挺好的,但是由于这个 outlier 的出现,导致分隔超平面不得不被挤歪了,变成途中黑色虚线所示(这只是一个示意图,并没有严格计算精确坐标),同时 margin 也相应变小了。当然,更严重的情况是,如果这个 outlier 再往右上移动一些距离的话,我们将无法构造出能将数据分开的超平面来。

    为了处理这种情况,SVM 允许数据点在一定程度上偏离一下超平面。例如上图中,黑色实线所对应的距离,就是该 outlier 偏离的距离,如果把它移动回来,就刚好落在原来的超平面上,而不会使得超平面发生变形了。具体来说,原来的约束条件

    现在变成

其中 称为松弛变量 (slack variable) ,对应数据点 允许偏离的 functional margin 的量。当然,如果我们运行 任意大的话,那任意的超平面都是符合条件的了。所以,我们在原来的目标函数后面加上一项,使得这些 的总和也要最小:

    其中 是一个参数,用于控制目标函数中两项(“寻找 margin 最大的超平面”和“保证数据点偏差量最小”)之间的权重。注意,其中 是需要优化的变量(之一),而 是一个事先确定好的常量。完整地写出来是这个样子:

    用之前的方法将限制加入到目标函数中,得到如下问题:

    分析方法和前面一样,转换为另一个问题之后,我们先让 针对 最小化:

    将 带回 并化简,得到和原来一样的目标函数:

    不过,由于我们得到 ,而又有 (作为 Lagrange multiplier 的条件),因此有 ,所以整个 dual 问题现在写作:

    和之前的结果对比一下,可以看到唯一的区别就是现在 dual variable 多了一个上限 。而 Kernel 化的非线性形式也是一样的,只要把 换成 即可。这样一来,一个完整的,可以处理线性和非线性并能容忍噪音和 outliers 的支持向量机才终于介绍完毕了。

    理解到这第二层,已经能满足绝大部分人一窥SVM原理的好奇心,然对于那些想在证明层面理解SVM的则还很不够,但进入第三层理解境界之前,你必须要有比较好的数理基础和逻辑证明能力,不然你会跟我一样,吃不少苦头的。

 

第三层、证明SVM

    说实话,凡是涉及到要证明的东西.理论,便一般不是怎么好惹的东西。绝大部分时候,看懂一个东西不难,但证明一个东西则需要点数学功底,进一步,证明一个东西也不是特别难,难的是从零开始发明创造这个东西的时候,则显艰难(因为任何时代,大部分人的研究所得都不过是基于前人的研究成果,前人所做的是开创性工作,而这往往是最艰难最有价值的,他们被称为真正的先驱。牛顿也曾说过,他不过是站在巨人的肩上。你,我则更是如此)。

    OK,以下内容基本属于自己在看支持向量机导论一书的理解,包括自己对一些证明的理解,可看做是读书笔记。

3.1、感知机算法

.......

预告:

    本文正在不断迭代,增补中,预计6月中旬初步完成请待后续更新、修补,谢谢。二零一二年六月四日凌晨一点。

posted on 2012-06-01 22:48  July_  阅读(56579)  评论(4编辑  收藏  举报