SVM学习——Coordinate Desent Method

前几篇侃了侃SVM的基本原理和一些相关知识，尤其是在SVM学习——软间隔优化这一篇，提到了SVM学习器的两种形式，常被叫做L1-SVM和L2-SVM，这两种形式的区别在损失函数的形式上，令训练样例为 $(x_i,y_i)$ ， $y_i$ 取值为-1或+1，

软间隔优化的原始形式为：

$min\quad\quad\quad\quad \frac{1}{2}<w,w>+C\sum\limits_{i=1}^{n}\xi(w,b,x_i,y_i)$

当损失函数 $\xi(w,b,x_i,y_i)$ $=max(0,(1-y_i(<w,x_i>+b)))$ 时就叫做L1-SVM，当损失函数 $\xi(w,b,x_i,y_i)$ $={max(0,(1-y_i(<w,x_i>+b)))}^2$ 时叫做L2-SVM，实际当中解这个问题其实可以从原始形式开始，也可以从其对偶形式开始：

设 $\alpha=(\alpha_1,\alpha_2,...\alpha_i)^T$ ， $i=(1,2,...n)$ ，则两种软间隔优化的对偶形式可以用统一的形式表示：

$max\quad \quad \quad W(\alpha)=e^T\alpha-\frac{1}{2}\alpha^TM\alpha$

$s.t. \quad\quad\quad 0\leq \alpha \leq U$ 其中： $e^T$ 为单位列向量， $M=M^'+D$ ， $M_{i,j}^'=y_iy_j<x_i,x_j>$ ， $D$ 为对角矩阵

对于L1-SVM： $D_{ii}=0$ && $U=C$ ；对于L2-SVM： $D_{ii}=1/(2C)$ && $U=+\infty$ 。

不管哪种形式，都是一个凸二次规划问题，不论是向量维度大或者是样本量很大的时候，求解这个优化问题难度都不小，于是在解得稀疏性(比如只需要得到支持向量)、目标函数的凸性等方面动脑筋，得到一些较有效率的方法，比如SMO(Sequential Minimal Opimisation)、梯度下降法、Trust Region Newton Method、Coordinate Desent Method 等等，这里面呢，我对Coordinate Desent Method 比较感兴趣，我就把我学到的东西说一下。

先了解几个概念：

1、度量空间：它是一个集合，在其中可以定义这个集合中元素之间的距离（叫做度量）的概念，这个距离满足非负性、同一性、对称性以及三角不等式(类似于咱们小时候学的，任意三角形，两边之和大于第三边)，见http://zh.wikipedia.org/zh-cn/%E5%BA%A6%E9%87%8F%E7%A9%BA%E9%97%B4。

2、Lipschitz 函数：对于一个实值函数 $f$ 以及定义在实数域(实数域包含有理数和无理数而且它是完备的)上的集合 $P$ ，如果存在常数L>0，使得 $|f(x_2)-f(x_1)|\leq L||x_2-x_1||$ ，则这个函数叫做Lipschitz 函数（这里用2-范数来度量集合 $P$ 中两个向量 $x_1$ 和 $x_2$ 的距离），它的几何意义其实就是：曲线上的任意两点的连线的斜率都有一个相同的上界，见http://zh.wikipedia.org/zh-cn/%E5%88%A9%E6%99%AE%E5%B8%8C%E8%8C%A8%E9%80%A3%E7%BA%8C。

直观的看满足Lipschitz 条件条件的函数一定是连续函数，而且曲线更加光滑，反之不然，比如在[0,1]上的函数 $f(x)=\sqrt{x}$ ，显然它不满足Lipschitz 条件。

$T]_TQUFDEV6G~FHX9C{~$20$

定理1：如果定义在实数域上的集合 $P$ 是一个凸集，实值函数 $f$ 连续可微且在 $P$ 内其梯度有界，则 $L=sup\{||\nabla f(x)||:x \in P\}$ 。

偶简单推导一下：

$P$ 是一个凸集，那么根据凸集定义：对于凸集中的任意向量 $x_1$ 和 $x_2$ (不是一般性，假设 $x_2>x_1$ )，有 $\lambda x_1+(1-\lambda)x_2\in P$ ，其中 $0<\lambda<1$ 。显然 $f$ 在[ $x_1$ , $x_2$ ]上连续，在( $x_1$ , $x_2$ )内可导，而 $x_2-\lambda(x_2-x_1)$ 在 $x_1$ 与 $x_2$ 之间，根据拉格朗日中值定理有， $|f(x_2)-f(x_1)|=|(x_2-x_1)^T\nabla f(z)|$ ，其中 $z=$ $x_2-\lambda(x_2-x_1)$ ，显然 $|f(x_2)-f(x_1)|\leq sup\{||\nabla f(z)||:z\in P\}||x_2-x_1||$ 。

之所介绍Lipschitz 条件是因为，如果可微函数 $f$ 的梯度满足Lipschitz连续条件，即： $||\nabla f(x)-\nabla f(x^')|| \leq L||x-x^'||$ ，则有：

$f(x) \leq f(x^') + \nabla f(x^')(x-x^')+\frac{L}{2}||x-x^'||^2$ (证明过程比较直白，偶就不写了，只要把f展开成二阶泰勒级数，然后代入Lipschitz连续条件得证)

基于梯度下降(GD)的算法应该是最为大家所熟知的一类算法(最速下降法、牛顿法、阻尼牛顿法、拟牛顿法等等)，我把满足上述条件的不等式换成另一种写法吧：

$f(x) \leq f(x^{(k)}) + \nabla f(x^{(k)})(x-x^{(k)})+\frac{L}{2}||x-x^{(k)}||^2$

对于最小化问题，总是希望每次迭代都可以让 $f(x^{(k+1)}) \leq f(x^{(k)})$ ，这样我们会越来越接近目标，对于上式的右边部分用函数 $F$ 代替，可以很容易知道，在 $x=S(x^{(k)}-\frac{\nabla f(x^{(k)})}{L} )$ 点， $F$ 取到极小值(嘿嘿，比如求导)，于是，梯度下降算法可以被概括为：

GD Algorithm：

1、选择初始点 $x^{(0)}$ ，令 $k=0$ ；

2、 $while$ (不满足结束条件){

$x^{(k+1)}=S(x^{(k)}-\frac{\nabla f(x^{(k)})}{L})$ ； //这里的S是个保序操作符（ $T$ 是保序操作符，指如果 $x\geq y$ ，则有 $T(x)\geq T(y)$ ）

$k=k+1$ ；

}

与GD较为不同的另一类算法就叫做Coordinate Desent Method，这种方法的特点是，算法有两层迭代，最内层迭代是一个搜索过程，搜索是依据n维向量的n个坐标方向分别搜索，每次迭代会将除了当前方向外的其他方向分量固定，然后在此基础上最小化目标函数，下次迭代时会选择另外一个分量进行相同的处理，经过了n次迭代后得到一个n维向量，然后更新目标向量，接着继续进行外层的迭代，概括这个过程如下：

CD Algorithm ：

1、选择初始点 $x^{(0)}$ ，令 $k=0$ ；

2、 $while$ (不满足结束条件){

$x^{(k,0)}=x^{(k)}$

$for(j=1;i<l;j++)$ { //假设特征空间维度为 $l$

$x_j^{(k,j)}=S(x_j^{(k,j-1)}-\frac{[\nabla f(x_j^{(k,j-1)})]_j }{L})$ ; //这里的S是个操作符

$x_i^{(k,j)}=x_i^{(k,j-1)}$ ; ( $i <> j$ ）

}

$x^{(k+1)}=x^{(k,d)}$ ;

$k=k+1$ ；

}

还记着开篇提到的L1-SVM和L2-SVM的统一形式吧，稍微转换一下形式，并把 $x_i^T$ 扩展为 $[x_i^T,1]$ ，把 $w^T$ 扩展为 $[w^T,b]$ ：

$min \quad \quad \quad W(\alpha)=\frac{1}{2}\alpha^T M \alpha -e^T\alpha$

$s.t. \quad\quad\quad 0\leq \alpha \leq U$ 其中： $e^T$ 为单位列向量， $M=M^'+D$ ， $M_{i,j}^'=y_iy_j<x_i,x_j>$ ， $D$ 为对角矩阵

对于L1-SVM： $D_{ii}=0$ && $U=C$ ；对于L2-SVM： $D_{ii}=1/(2C)$ && $U=+\infty$ 。

下面介绍一种基于Coordinate Descent 的算法，该算法出自《A Dual Coordinate Descent Method for Large-scale Linear SVM》一文。

整个算法架构同CD Algorithm。

1、假设样本数为 $l$ ，当前外层循环的索引为 $k$ ，当前内层循环索引为 $i$ ，其取值为 $1....l+1$ ,对于 $\alpha$ 向量有表示形式：

$\alpha^{k,i}=[\alpha_{1}^{k+1},\alpha_{2}^{k+1},\quad....\alpha_{i-1}^{k+1},\alpha_{i}^{k},\quad.....\alpha_{l}^{k}]^T$ ， $\forall i=2,.....l$ ；

$\alpha^{k,1}=\alpha^{k}$ ，表示还没有开始内层循环时的状态， $\alpha^{k,l+1}=\alpha^{k+1}$ ，表示对所有分量更新完毕。

2、内层循环中的S操作的过程是求解子问题：

$min \quad\quad\quad W(\alpha^{k,i}+de_i )$

$s.t. \quad\quad\quad 0 \leq \alpha^k_i \leq U$ ，其中 $e_i=[0,... 0,1, 0,...0]T$ ，第 $i$ 个分量的值为1。

大家可以在纸上稍作推导，上面这个问题的目标函数可以表示为：

$W(\alpha^{k,i}+de_i)=\frac{1}{2}M_{i,i}d^2+\nabla _{i}W(\alpha^{k,i})d+\frac{1}{2}\alpha^TM\alpha -e^T\alpha$ ，其中 $\nabla _{i}f$ 表示梯度 $\nabla f$ 的第 $i$ 个分量

这是一个二次函数，除了带d的部分以外可以看做一个常量，即上述形式为：

$W(\alpha^{k,i}+de_i)=\frac{1}{2}M_{i,i}d^2+\nabla _{i}W(\alpha^{k,i})d+Constant$

令 $\nabla_i^' W(\alpha)= \begin{cases} \nabla_i W(\alpha) & if \quad 0<\alpha_i<U\\ min(0,\nabla_i W(\alpha)) & if \quad \alpha_i=0\\ max(0,\nabla_i W(\alpha)) & if \quad \alpha_i=U \end{cases}$

1)、当 $\nabla_i^P W(\alpha^{k,i})=0$ 时不需要对当前分量进行更新；

2)、对上式求K-T点并考虑 $s.t. \quad\quad\quad 0 \leq \alpha^k_i \leq U$ 约束条件，如果 $M_{i,i}>0$ 则有：

$\alpha_i^{k,i+1}=min(max(\alpha_i^{k,i}-\frac{\nabla_iW(\alpha^{k,i})}{M_{i,i}},0),U)$

计算 $\nabla_i W(\alpha)=(M\alpha)_i-1=\sum\limits_{j=1}^l M_{i,j}\alpha_j-1$ ，就是将核矩阵的第 $i$ 行向量和 $\alpha$ 向量做内积，这个操作代价很高，但是对于线性SVM，有 $w=\sum\limits_{i=1}^ly_i\alpha_ix_i$ (还记得那个互补条件吧，嘿嘿)，又有 $M=M^'+D$ 、 $M_{i,j}^'=y_iy_j<x_i,x_j>$ ，于是上式就变成了 $\nabla_iW(\alpha)=y_iw^Tx_i-1+D_{i,i}\alpha_i$ ，这个计算的代价就没有那么高了，显然在更新 $\alpha$ 的时候需要对 $w$ 也更新，要是每次都计算 $w=\sum\limits_{i=1}^ly_i\alpha_ix_i$ 就代价太高了，所以文中利用 $\alpha$ 更新前和更新后的值来确定 $w$ ，如下：