支持向量机

概述

支持向量机(support vector machines, SVM)是一种二类分类模型。它的基本模型是定义在特征空间上的间隔最大的线性分类器；支持向量机还包括核技巧，这使它成为实质上的非线性分类器。支持向量机的学习策略就是间隔最大化，可形式化为一个求解凸二次规划(convex quadratic programming)的问题，也等价于正则化的合页损失函数的最小化。支持向量机的学习算法是求解凸二次规划的最优化算法。

支持向量机学习模型：线性可分支持向量机(linear support vector machine in linearly separable case )、线性支持向量机(linear support vector machine)及非线性支持向量机(non-linear support vector machine)。

学习方法包括：硬间隔最大化(hud margin maximization)、软间隔最大化(soft margin maximization)、核技巧(kernel trick)。通过使用核函数可以学习非线性支持向量机，等价于隐式地在高维的特征空间中学习线性支持向量机。这样的方法称为核技巧(kernel trick)。

线性可分支持向量机和硬间隔最大化

1、线性可分支持向量机

2、函数间隔与几何间隔

二者之间的关系：

3、间隔最大化

支持向量机学习的基本想法是求解能够正确划分训练数据集并且几何间隔最大的分离超平面。对线性可分的训练数据集而言，线性可分分离超平面有无穷多个(等价于感知机)，但是几何间隔最大的分离超平面是唯一的。这里的间隔最大化又称为硬间隔最大化。

间隔最大化的直观解释是：对训练数据集找到几何间隔最大的超平面意味着以充分大的确信度对训练数据进行分类，也就是说，不仅将正负实例点分开，而且对最难分的实例点(离超平面最近的点)也有足够大的确信度将它们分开。

（1）最大间隔分离超平面

推导步骤如下：

A.原始约束:

B.改写一下：

C.函数间隔y~的取值并不影响最优化问题的解.事实上，假设将w和b按比例改变为s*w和s*b这时函数间隔成为s*y~.函数间隔的这一改变对上面最优化问题的不等式约束没有影响，对目标函数的优化也没有影响，也就是说，它产生一个等价的最优化问题.这样，就可以取y~=1.将y~=1代入上面的最优化问题，注意到最大化1/||w||和最小化告||w||²/2是等价的，于是就得到下面的线性可分支持向量机学习的最优化问题:

如果求出了该约束最优化问题的解w* ,b*，那么就可以得到最大间隔分离超平面w*x+b*=0及分类决策函数J(x)=sign(w*x+b*),即线性可分支持向量机模型。

（2）线性可分支持向量机的学习算法——最大间隔法

（3）最大间隔分离超平面的唯一性

若训练数据集z线性可分，则可将训练数据集中的样本点完全正确分开的最大间隔分离超平面存在且唯一。

（4）支持向量和间隔边界

在线性可分情况下，训练数据集的样本点中与分离超平面距离最近的样本点的实例称为支持向量( support vector )。支持向量是使约束条件式等号成立的点，即

如图，其中在H₁和H₂上的点就是支持向量，H₁和H₂之间的距离称为间隔(margin)。间隔依赖于分离超平面的法向量w，等于2/||w||。H₁和H₂称为间隔边界.

在决定分离超平面时只有支持向量起作用，而其他实例点并不起作用。如果移动支持向量将改变所求的解；但是如果移动其他实例点，甚至去掉这些点，则解是不会改变的。由于支持向量在确定分离超平面中起决定性作用，所以将这种分类模型称为支持向量机。支持向量的个数一般很少，所以支持向量机由很少的“重要的”训练样本确定。

4、学习的对偶算法

构建拉格朗日函数(Lagrange function)，引进拉格朗日乘子(Lagrange multiplier)：

根据拉格朗日对偶性，原始问题的对偶问题是拉格朗日函数的极大极小问题：

求解步骤：

（1）先对w，b求极小化

得：

将上式代入拉格朗日函数：

（2）对a求最大化

（3）得出解

总结线性可分支持向量机学习算法：

对应的支持向量：

例子：

解法一：

解法二：

线性支持向量机和软间隔最大化

1、线性支持向量机

（1）针对线性不可分训练数据

线性不可分意味着某些样本点不能满足函数间隔大于等于1的约束条件,为了解决这个问题，可以对每个样本点引进一个松弛变量，约束条件变为：

同时目标函数变为：。其含义是使1/||w||²尽量小，即间隔尽量大，同时使误分点的个数尽可能少。该思路用于线性不可分的数据学习支持向量机，相应与硬间隔最大化，其被称为软间隔最大化。

（2）线性不可分的线性支持向量机的学习问题

线性不可分的线性支持向量机的学习问题变成凸二次规划(convex quadratic progamming )问题（原始问题）:

其中可证明，w的解是唯一的，b的解不唯一。

（3）线性支持向量机的定义：

2、学习的对偶算法

（1）推导

（2）对偶问题及其最优解

（3）总结：线性支持向量机学习算法

步骤(2)中，对往一适合条件。0<a_j^*<C的a_j^*.按式((7.51)都可求出b*，但是由于原始问题(7.32)一(7.34)对b的解并不唯一，所以实际计算时可以取在所有符合条件的样本点的平均值。

3、支持向量

线性不可分的情况下，将对偶问题的解a*中对应于a_j* > 0的样本点(x_i，y_i)的实例x_i称为支持向量(软间隔的支持向量)。

软间隔的支持向量x_i或者在间隔边界上，或者在间隔边界与分离超平面之间，或者在分离超平面误分一侧。

若a*<C，则约束，支持向量x_i恰好落在间隔边界上；

若a*=C，0<约束<1，则分类正确，x_i在间隔边界与分离超平面之间;

若a*=C，约束=1，则x_i在分离超平面上:

若a*=C，约束>1，则x_i位于分离超平面误分一侧.

4、合页损失函数

线性支持向量机学习还有另外一种解释，就是最小化以下目标函数：

目标函数的第1项是经验损失或经验风险，函数称为合页损失函数(hinge loss ftmction)

下标“+”表示以下取正值的函数：

这就是说，当样本点（x_i,y_i）被正确分类且函数间隔(确信度)y(wx+b)大于1时，损失是0。也就是有的实例点被正确分类，但损失不是0。目标函数的第2项是系数为元的w的么范数，是正则化项.

合页损失函数的图形如图所示，横轴是函数间隔y(wx十b) .纵轴是损失.由于函数形状像一个合页，故名合页损失函数.

图中还画出0-1损失函数，可以认为它是二类分类问题的真正的损失函数，而合页损失函数是0-1损失函数的上界.由于0-1损失函数不是连续可导的，直接优化由其构成的目标函数比较困难，可以认为线性支持向量机是优化由0-1损失函数的上界(合页损失函数)构成的目标函数.这时的上界损失函数又称为代理损失函数(surrogate loss function).图中虚线显示的是感知机的损失函数[y(wx十b)]₊.这时，当样本点(x,y)被正确分类时，损失是0，否则损失是-y(wx十b).相比之下，合页损失函数不仅要分类正确，而且确信度足够高时损失才是0.也就是说，合页损失函数对学习有更高的要求.