Adaboost

Adaboost的主要优点有：
1. Adaboost作为分类器时，分类精度很高
2. 在Adaboost的框架下，可以使用各种回归分类模型来构建弱学习器，非常灵活。
3. 作为简单的二元分类器时，构造简单，结果可理解。
4. 不容易发生过拟合

Adaboost的主要缺点有：对异常样本敏感，异常样本在迭代中可能会获得较高的权重，影响最终的强学习器的预测准确性。

Adaboost是boost提升算法中的一种，Boosting算法是将“弱学习算法“提升为“强学习算法”的过程，主要思想是“三个臭皮匠顶个诸葛亮”。一般来说，找到弱学习算法要相对容易一些，然后通过反复学习得到一系列弱分类器，组合这些弱分类器得到一个强分类器。Boosting算法要涉及到两个部分，加法模型和前向分步算法。加法模型就是说强分类器由一系列弱分类器线性相加而成。一般组合形式如下：

其中，

前向分步就是说在训练过程中，下一轮迭代产生的分类器是在上一轮的基础上训练得来的。也就是可以写成这样的形式：

由于采用的损失函数不同，Boosting算法也因此有了不同的类型，AdaBoost就是损失函数为指数损失的Boosting算法。

Adaboost算法流程

Adaboost每次选择一个二分类算法，然后计算当前误差，将错误的样本的权值提高，分类正确的样本权值降低，这个算法有一个权重alpha作为这个分类算法最后的权重，然后再次迭代下一次算法模型，遇到m个算法模型或者分类误差率为0时退出算法。

AdaBoost算法的解释

AdaBoost还有一种解释，即可认为AdaBoost算法是模型为加法模型、损失函数为指数函数、学习算法为前向分布算法时的二类分类学习方法。

前向分布算法

加法模型 additive model
$\begin{align*} \\ & f \left( x \right) = \sum_{m=1}^{M} \beta_{m} b\left(x;\gamma_{m}\right) \end{align*} \\$
其中， $b\left(x;\gamma_{m}\right)$ 为基函数， $\beta_{m}$ 为基函数系数， $\gamma_{m}$ 为基函数参数。

在给定训练数据及损失函数 $L\left(y,f\left(x\right)\right)$ 的条件下，学习加法模型 $f\left(x\right)$ 成为经验风险极小化问题
$\begin{align*} \\ & \min_{\beta_{m},\gamma_{m}} \sum_{i=1}^{N} L \left( y_{i}, \sum_{m=1}^{M} \beta_{m} b\left(x_{i};\gamma_{m}\right) \right) \end{align*} \\$

学习加法模型，从前向后每一步只学习一个基函数及其系数，即每步只优化
$\begin{align*} \\ & \min_{\beta,\gamma} \sum_{i=1}^{N} L \left( y_{i}, \beta b\left(x_{i};\gamma\right) \right) \end{align*} \\$

前向分布算法 forward stagewise algorithm：
输入：训练数据集 $T = \left\{ \left( x_{1}, y_{1} \right), \left( x_{2}, y_{2} \right), \cdots, \left( x_{N}, y_{N} \right) \right\}$ ，损失函数 $L\left(y,f\left(x\right)\right)$ ；基函数集 $\left\{b\left(x;\gamma\right)\right\}$
输出：加法模型 $f\left(x\right)$
1. 初始化 $f_{0}\left(x\right)=0$
2. 对 $m=1,2,\cdots,M$
2.1 极小化损失函数
$\begin{align*} \\ & \left(\beta_{m},\gamma_{m}\right) = \arg \min_{\beta,\gamma} \sum_{i=1}^{N} L \left( y_{i},f_{m-1} \left(x_{i}\right) + \beta b\left(x_{i};\gamma \right)\right) \end{align*} \\$
得到参数 $\beta_{m},\gamma_{m}$
2.2 更新
$\begin{align*} \\& f_{m} \left(x\right) = f_{m-1} \left(x\right) + \beta_{m} b\left(x;\gamma_{m}\right) \end{align*} \\$
3. 得到加法模型
$\begin{align*} \\ & f \left( x \right) = f_{M} \left( x \right) = \sum_{m=1}^{M} \beta_{m} b \left( x; \gamma_{m} \right) \end{align*} \\$

定理：AdaBoost算法是前向分布加法算法的特例。这时模型是由基本分类器组成的加法模型，损失函数是指数函数。

证明：

加法模型等价于AdaBoost的最终分类器

$f(x)=\sum_{m=1}^{M}\alpha_{m}G_{m}(x)\\$

由基本分类器 $G_{m}(x)$ 及其系数 $\alpha _{m}$ 组成， $m=1,2,...,M$ 。前向分布算法逐一学习基本函数，这一过程与AdaBoost算法逐一学习基本分类器的过程一致。下面证明前向分布算法的损失函数是指数损失函数（exponential loss function）

$L(y,f(x))=exp[-yf(x)]\\$

时，其学习的具体操作等价于AdaBoost算法学习的具体操作。

假设经过m-1轮迭代前向分布算法已经得到 $f_{m-1}(x)$ ：

$f_{m-1}(x)=f_{m-2}(x)+\alpha _{m-1}G_{m-1}(x)=\alpha _{1}G_{1}(x)+\cdots +\alpha _{m-1}G_{m-1}(x\\$

在第 $m$ 轮得到 $\alpha _{m},G_{m}(x)$ 和 $f_{m}(x)$ .

$f_{m}(x)=f_{m-1}(x)+\alpha _{m}G_{m}(x)\\$

目标是使前向算法得到的$\alpha {m}$和$G{m}$使$f_{m}(x)$在训练数据集$T$上的指数损失最小，即：

$(\alpha _{m},G_{m}(x))=arg~\underset{\alpha,G}{min}\sum_{i=1}^{N}exp[-y_{i}(f_{m-1}(x_{i})+\alpha G(x_{i}))]\\$

可以表示成：

$(\alpha _{m},G_{m}(x))=arg~\underset{\alpha,G}{min}\sum_{i=1}^{N}\overline{w}_{mi}exp[-y_{i}\alpha G(x_{i})]\\$

其中， $\overline{w}_{mi}=exp[-y_{i}f_{m-1}(x_{i})]$ ，因为 $\overline{w}_{mi}$ 不依赖于 $\alpha$ ，也不依赖于 $G$ 。

首先求 $G_{m}^{*}(x)$ ，进一步展开：

$\sum_{i=1}^{N}\overline{w}_{mi}exp[-y_{i}\alpha G(x_{i})]=\sum_{i=1}^{N}\overline{w}_{mi}e^{-\alpha}I\{y_{i}=G(x_{i})\}+\sum_{i=1}^{N}\overline{w}_{mi}e^{\alpha}I\{y_{i}\neq G(x_{i})\}\\$ $=e^{-\alpha}\sum_{i=1}^{N}\overline{w}_{mi}I\{y_{i}=G(x_{i})\}+e^{\alpha}\sum_{i=1}^{N}\overline{w}_{mi}I\{y_{i}\neq G(x_{i})\}+e^{-\alpha}\sum_{i=1}^{N}\overline{w}_{mi}I\{y_{i}\neq G(x_{i})\}-e^{-\alpha}\sum_{i=1}^{N}\overline{w}_{mi}I\{y_{i}\neq G(x_{i})\}\\$ $=e^{-\alpha}\sum_{i=1}^{N}\overline{w}_{mi}+(e^{\alpha}-e^{-\alpha})\sum_{i=1}^{N}\overline{w}_{mi}I\{y_{i}\neq G(x_{i})\}\\$

所以最小化 $G(x)$ 由下式得到：

$G_{m}^{*}(x)=arg~\underset{G}{min}\sum_{i=1}^{N}\overline{w}_{mi}I\{y_{i}\neq G(x_{i})\}\\$

之后我们求解 $\alpha _{m}^{*}$ ：

$\sum_{i=1}^{N}\overline{w}_{mi}exp[-y_{i}\alpha G(x_{i})]=\sum_{y_{i}=G_{m}(x_{i})}\overline{w}_{mi}e^{-\alpha}+\sum_{y_{i}\neq G_{m}(x_{i})}\overline{w}_{mi}e^{\alpha}\\$

$=e^{-\alpha}\sum_{i=1}^{N}\overline{w}_{mi}+(e^{\alpha}-e^{-\alpha})\sum_{i=1}^{N}\overline{w}_{mi}I\{y_{i}\neq G(x_{i})\}\\$

对 $\alpha$ 求导：

$\frac{\partial }{\partial \alpha}(e^{-\alpha}\sum_{i=1}^{N}\overline{w}_{mi}+(e^{\alpha}-e^{-\alpha})\sum_{i=1}^{N}\overline{w}_{mi}I\{y_{i}\neq G(x_{i})\})\\$

$=-e^{-\alpha}\sum_{i=1}^{N}\overline{w}_{mi}+(e^{\alpha}+e^{-\alpha})\sum_{i=1}^{N}\overline{w}_{mi}I\{y_{i}\neq G(x_{i})\}=0\\$

即得：

$\frac {e^{\alpha}+e^{-\alpha}}{e^{-\alpha}}=\frac {\sum_{i=1}^{N}\overline{w}_{mi}}{\sum_{i=1}^{N}\overline{w}_{mi}I\{y_{i}\neq G(x_{i})\}}\\$

其中 $e_{m}$ 是分类错误率：

$e_{m}=\frac {\sum_{i=1}^{N}\overline{w}_{mi}I\{y_{i}\neq G(x_{i})\}}{\sum_{i=1}^{N}\overline{w}_{mi}}=\sum_{i=1}^{N}\overline{w}_{mi}I\{y_{i}\neq G(x_{i})\}\\$