拥护向量机（SVM）（二）---优化算法

一、原理概述

根据上一篇文章《支持向量机（SVM）（一）---基本原理》我们得到的SVM的对偶形式的约束优化难题，我们接下来要面对的问题是如何求解下面的最优化问题：

$\begin{matrix} \max_{\alpha} \sum_{i=1}^{N} \ \alpha_i - \frac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_i \alpha_j y_i y_j (x_i^\top x_j) \\ \text{s.t. }\left\{ \begin{matrix} \alpha_i \geq 0,\\ \sum_{i=1}^{N} \alpha_i y_i = 0 \end{matrix}\right. \end{matrix}$

在上述问题中，变量时拉格朗日乘子，每个变量 $\alpha_i$ 对应于一个样本点 $(x_{i},y_{i})$ ，该优化问题纵然理论上行通过通用的二次规划（QP）求解软件进行求解，但在实际数据规模较大时，通用QP求解器效率过低，难以处理数千甚至上百万的训练样本，为此我们来介绍Platt提出的序列最小最优化（SMO）算法。

SMO算法是一种启发式算法，其基本思路为：若所有变量的解都满足此最优化难题的KKT条件（Karush-Kuhn-Tucker conditions），则说明当前解已达到最优；否则，每次只优化两个拉格朗日乘子 $\alpha _{i}$ 和 $\alpha _{j}$ ，固定其他变量，针对这两个变量构建一个二次规划问题，子难题的两个变量中，一个变量是违反KKT条件最严重的那一个，另一个由约束条件自动确定。从而将复杂的大规模二次规划问题转化为一系列可解析求解的二维子障碍，使得 SVM 在大样本条件下也能高效训练。

自由变量，根据约束条件就是需要注意的是子难题的两个变量中只有一个 $\sum_{i=1}^{N} \alpha_i y_i = 0$ 可知如果 $\alpha_2$ 确定，那么 $\alpha_1$ 也就随之确定。因此子问题中同时更新两个变量。

整个SMO算法包括两部分内容：求解两个比哪里那个二次规划的解析方法和选择变量的启发方法。

二、两个变量二次规划求解方法

假设在一次优化过程中选择的两个变量是 $\alpha_1$ 和 $\alpha_2$ ，其他变量 $\alpha_i(i=3,4,\cdots ,N)$ 是固定的，这样我们就可以将SMO的最优化子问题写成（下述公式中省略了不含 $\alpha_1,\alpha_2$ 的常数项）：

其中， $K_{ij} = K(x_i, x_j), i,j = 1,2,\cdots,N,\varsigma$ 是常数，为了解决上述二次规划问题，我们需要先对约束条件进行分析，然后再此约束条件下求极小。由于现在只有两个变量 $\alpha_1,\alpha_2$ ，约束可以使用二维空间的几何图形进行表示：

根据不等式约束 $0 \leqslant \alpha_i \leqslant C, \quad i = 1,2$ ，使得 $(\alpha_1,\alpha_2)$ 在上图的正方形内部；根据等式约束 $\alpha_1y_1 + \alpha_2y_2 = -\sum_{i=3}^{N} y_i\alpha_i = \varsigma$ ，使得 $(\alpha_1,\alpha_2)$ 在平行于正方形对角线的直线上。由于 $\alpha_1,\alpha_2$ 在该线段上通过等式约束呈线性关系，问题实质上转化为了单变量的最优化问题，后面大家将按照 $\alpha_2$ 的最优化问题进行介绍。

假设难题的最初可行解为 $\alpha_1^{old},\alpha_2^{old}$ ，最优解为 $\alpha_1^{new},\alpha_2^{new}$ ,在沿着约束方向未经剪辑（未考虑不等式约束）时 $\alpha_2$ 的最优解为 $\alpha_2^{new,unc}$ 。

由于 $\alpha_2^{new}$ 需满足不等式约束，即：

$L\le \alpha_2^{new} \le H$

其中L与H表示 $\alpha_2^{new}$ 所在对角线段端点的界。

当 $y_1\ne y_2$ 时 $L = \max(0, \alpha_2^{\text{old}} - \alpha_1^{\text{old}}), \quad H = \min(C, C + \alpha_2^{\text{old}} - \alpha_1^{\text{old}})$

当 $y_1= y_2$ 时， $L = \max(0, \alpha_2^{\text{old}} + \alpha_1^{\text{old}} - C), \quad H = \min(C, \alpha_2^{\text{old}} + \alpha_1^{\text{old}})$

为了求解上述问题，我们设置决策函数g(x)，其表达式为：

$g(x) = \sum_{i=1}^{N} \alpha_i y_i K(x_i, x) + b$

根据决策函数可以计算预测误差 $E_i$ ，其计算公式为：

$E_i = g(x_i) - y_i = \left( \sum_{j=1}^{N} \alpha_j y_j K(x_j, x_i) + b \right) - y_i, \quad i = 1, 2$

在求解过程中，首先求沿着约束方向未经剪辑时 $\alpha_2$ 的最优解；然后再求剪辑后 $\alpha_2$ 的最优解。

在求解过程中，我们需要引入记号：

$v_i = \sum_{j=3}^{N} \alpha_j y_j K(x_i, x_j) = g(x_i) - \sum_{j=1}^{2} \alpha_j y_j K(x_i, x_j) - b, \quad i = 1,2$

又因为 $\alpha_1y_1 = \varsigma - \alpha_2y_2,y_i^2 = 1$ ，因此 $\alpha_1$ 可表示为：

$\alpha_1 = (\varsigma - y_2\alpha_2)y_1$

将 $\alpha_1$ 带回原目标函数，得到：

接下来，对 $\alpha_2$ 求导并令其为0，得到：

将 $\varsigma = \alpha_1^{\text{old}}y_1 + \alpha_2^{\text{old}}y_2$ 与 $\eta = K_{11} + K_{22} - 2K_{12}$ 代入得到：

$\alpha_2^{\text{new,unc}} = \alpha_2^{\text{old}} + \frac{y_2(E_1 - E_2)}{\eta}$

根据上述解，经过剪辑后，最优解为：

$\alpha_2^{\text{new}} = \begin{cases} H, & \alpha_2^{\text{new,unc}} > H \\ \alpha_2^{\text{new,unc}}, & L \leqslant \alpha_2^{\text{new,unc}} \leqslant H \\ L, & \alpha_2^{\text{new,unc}} < L \end{cases}$

根据 $\alpha_2^{\text{new }}$ 求得 $\alpha_1^{\text{new }}$ 为：

$\alpha_1^{\text{new}} = \alpha_1^{\text{old}} + y_1y_2(\alpha_2^{\text{old}} - \alpha_2^{\text{new}})$

三、选择变量的启发方法

1、第一个变量选择（外层循环）

外层循环中，算法会在训练样本中选取违反KKT条件最为严重的样本点，并对其对应的变量作为第一个变量。具体来说，检验训练样本点 $(x_{i},y_{i})$ 是否满足KKT条件，即：

其中， $g(x_i) = \sum_{j=1}^{N} \alpha_j y_j K(x_i, x_j) + b$

该检验是在 $\varepsilon$ 范围内进行的。再检验过程中，外层循环首先遍历所有满足条件 $0 < \alpha_i < C$ 的样本点，即在间隔边界上的支持向量点，检验它们是否满足KKT条件。假如这些点都满足KKT条件，则对整个训练集上的样本点进行检验。

2、第二个变量选择（内层循环）

假设在外层循环中已经找到第1个变量 $\alpha_1$ ，先要找第二个变量 $\alpha_2$ ，它得选择标准使希望能够有足够大的变化。

根据前文推导的求解 $\alpha_1^{\text{new }}$ 和 $\alpha_2^{\text{new }}$ 的公式可知， $\alpha_2^{\text{new }}$ 是依赖于 $\left | E_1-E_2 \right |$ 的，因此为了加快计算，对于大多数问题我们都能够简单的找 $\left | E_1-E_2 \right |$ 的最大值时对应的 $\alpha_2^{\text{new }}$ 。

由于 $\alpha_1$ 已定， $E_1$ 也就是定值了，那么若 $E_1$ 为正，为保证 $\left | E_1-E_2 \right |$ t最大则选择最小的 $E_i$ 作为 $E_2$ ；若 $E_1$ 为负，则选择最大的 $E_i$ 作为 $E_2$ 。为了方便，在实际应用中可以将所有的 $E_i$ 保存在一个表中。

在特殊情况下，如果上述办法无法充分使目标函数得到足够的下降，那么可以采用启发式规则继续选择 $\alpha_2$ ，其思路为：遍历再建个边界上的拥护向量点，依次使其对应的变量作为 $\alpha_2$ 进行计算，直到目标函数得到了足够的下降。若找不到合适的 $\alpha_2$ 则遍历整个训练集。仍找不到合适的 $\alpha_2$ 则放弃第一次找到的变量 $\alpha_1$ 重新寻找一个新的 $\alpha_1$ 。

3、计算阈值b和预测误差E_i

在每次优化两个变量更新完后，我们应该重新对阈值b和预测误差E_i进行计算。

当 $0 < \alpha_1^{\text{new}} < C$ 时，由于KKT条件 $0 < \alpha_i < C \Leftrightarrow y_i g(x_i) = 1$ 可知：

$\sum_{i=1}^{N} \alpha_i y_i K_{i1} + b = y_1$

（注：这里 $y_1$ 为类别标签，取值为+1或-1，所以 $\frac{1}{y_1}= y_1$ ）

因此

$b_1^{\text{new}} = y_1 - \sum_{i=3}^{N} \alpha_i y_i K_{i1} - \alpha_1^{\text{new}} y_1 K_{11} - \alpha_2^{\text{new}} y_2 K_{21}$

根据E_1的定义：

$E_1 = \sum_{i=3}^{N} \alpha_i y_i K_{i1} + \alpha_1^{\text{old}} y_1 K_{11} + \alpha_2^{\text{old}} y_2 K_{21} + b^{\text{old}} - y_1$

可以将 $b_1^{\text{new}}$ 公式中的前两项可以写成：

$y_1 - \sum_{i=3}^{N} \alpha_i y_i K_{i1} = -E_1 + \alpha_1^{\text{old}} y_1 K_{11} + \alpha_2^{\text{old}} y_2 K_{21} + b^{\text{old}}$

因此 $b_1^{\text{new}}$ 最终的更新公式为：

$b_1^{\text{new}} = -E_1 - y_1 K_{11}(\alpha_1^{\text{new}} - \alpha_1^{\text{old}}) - y_2 K_{21}(\alpha_2^{\text{new}} - \alpha_2^{\text{old}}) + b^{\text{old}}$

同理允许得到 $b_2^{\text{new}}$ 的更新公式为：

$b_2^{\text{new}} = -E_2 - y_1 K_{12}(\alpha_1^{\text{new}} - \alpha_1^{\text{old}}) - y_2 K_{22}(\alpha_2^{\text{new}} - \alpha_2^{\text{old}}) + b^{\text{old}}$

如果 $\alpha_1^{\text{new}}, \alpha_2^{\text{new}}$ 同时满足条件 $0 < \alpha_i^{\text{new}} < C, \, i = 1,2$ ，那么 $b_1^{\text{new}} = b_2^{\text{new}}$ 。如果 $\alpha_1^{\text{new}}, \alpha_2^{\text{new}}$ 是0或者C，那么 $b_1^{\text{new}}$ 和 $b_2^{\text{new}}$ 符合KKT条件的阈值，这时选择它们的中点作为就是以及它们之间的数都 $b^{\text{new}}$ 。

在每次做完两个变量的优化之后，还必须更新对应的E_i值，并将它们保存在列表中。其更新公式为：

$E_i^{\text{new}} = \sum_{S} y_j \alpha_j K(x_i, x_j) + b^{\text{new}} - y_i$

其中， $S$ 是所有支持向量 $x_j$ 的集合。

最终我们可以得到SMO算法的伪代码：

算法：SMO（序列最小优化）
输入：训练集 T = {(x1, y1), …, (xN, yN)}，惩罚参数 C，精度 ε
输出：拉格朗日乘子 α，偏置 b
1. 初始化 α ← 0，b ← 0
2. 重复：
   2.1 选择一对违反 KKT 条件最严重的变量 (α1, α2)
   2.2 在保持其余 α 不变的情况下，构建二变量子问题
   2.3 计算未剪辑解 α2_unc
   2.4 根据约束 [L, H] 对 α2_unc 进行剪辑，得到 α2_new
   2.5 根据等式约束更新 α1_new
   2.6 更新偏置 b
3. 直到所有 α 满足 KKT 条件 或 达到最大迭代次数
4. 输出 α, b

四、总结

SMO算法是支持向量机学习的一种快速算法，其特点是不断地将原二次规划问题分解为只有两个变量的二次规划子问题，并对子问题进行解析求解，直到所有变量满足KKT条件为止。这样通过启发式的方法得到原二次规划挑战的最优解。因为子挑战有解析解，因此每次计算子问题都很快，尽管计算子问题次数很多，但在总体仍是高效的。

五、参考文献

[1] 李航. 统计学习方法（第2版）[M]. 北京: 清华大学出版社, 2019.

[2] Harrington P. 机器学习实战[M]. 李锐译. 北京: 人民邮电出版社, 2013.

posted @ 2025-11-11 22:51 yangykaifa 阅读(3) 评论(0) 收藏举报

刷新页面返回顶部