Adaboost算法原理与计算实例
Adaptive Boosting(自适应提升)基于Boosting思想实现的一种集成学习;算法核心思想是:通过逐步提高那些被前一步分类错误的样本的权重来训练一个强分类器。
本章会讲解Adaboost算法推导过程,并用一个数值实例带着读者计算,使读者能够完全理解这个训练弱分类器至强分类器构建的过程。
一、Adaboost算法推导
1.初始化训练数据权重相等,训练第 1 个学习器
- 如果有 100 个样本,则每个样本的初始化权重为:1/100
- 根据预测结果找一个错误率最小的分裂点,计算、更新:
样本权重、模型权重
2.根据新权重的样本集 训练第 2 个学习器
- 根据预测结果找一个错误率最小的分裂点计算、更新:样本权重、模型权重
3.迭代训练在前一个学习器的基础上,根据新的样本权重训练当前学习器
- 直到训练出 m 个弱学习器
4.m 个弱学习器集成预测公式:
\(H(x) = \text{sign}(\sum_{i=1}^m a_i h_i(x))\)
- \(\alpha\) 为模型的权重,输出结果大于 0 则归为正类,小于 0 则归为负类
5.模型权重计算公式:
\begin{aligned}
a_t &= \frac{1}{2} \ln\left(\frac{1-\varepsilon_t}{\varepsilon_t}\right)
\end{aligned}
\(a_t\) 为模型权重
\(\varepsilon_t\) 表示第 t 个弱学习器的错误率
6.样本权重计算公式:

其中 \(Z_t\) 为归一化值(所有样本权重总和)
\(D_t(x)\)为样本权重
\(a_t\) 为模型权重
二、Adaboost算法 – 构建过程
已知训练数据见下面表格,假设弱分类器由 x 产生,预测结果使该分类器在训练数据集上的分类误差率最低,试用 Adaboost算法学习一个强分类器。
| 序号 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
|---|---|---|---|---|---|---|---|---|---|---|
| x | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 |
| y | 1 | 1 | 1 | -1 | -1 | -1 | 1 | 1 | 1 | -1 |
1.Adaboost算法-构建第1个弱分类器
1.1初始化工作:
初始化 10 个样本的权重,每个样本的权重为:0.1
| x | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 |
|---|---|---|---|---|---|---|---|---|---|---|
| w | 0.1 | 0.1 | 0.1 | 0.1 | 0.1 | 0.1 | 0.1 | 0.1 | 0.1 | 0.1 |
| y | 1 | 1 | 1 | -1 | -1 | -1 | 1 | 1 | 1 | -1 |
1.2 构建第一个基学习器:寻找最优分裂点
- 对特征值 x 进行排序,确定分裂点为:0.5、1.5、2.5、3.5、4.5、5.5、6.5、7.5、8.5
- 当以 0.5 为分裂点时,有 5 个样本分类错误(小于0.5的全部分类为1,大于0.5的分类为-1,那么x=1、2、6、7、8的错了,错误率为0.5)
- 当以 1.5 为分裂点时,有 4 个样本分类错误
- 当以 2.5 为分裂点时,有 3 个样本分类错误
- 当以 3.5 为分裂点时,有 4 个样本分类错误
- 当以 4.5 为分裂点时,有 5 个样本分类错误
- 当以 5.5 为分裂点时,有 4 个样本分类错误
- 当以 6.5 为分裂点时,有 5 个样本分类错误
- 当以 7.5 为分裂点时,有 4 个样本分类错误
- 当以 8.5 为分裂点时,有 3 个样本分类错误
- 最终,选择以 2.5 作为分裂点,计算得出基学习器错误率为:3/10=0.3
1.3 按照公式计算模型权重
\(1/2 * \text{np.log}((1-0.3)/0.3)=0.4236\)
1.4 按照公式更新样本权重
- 分类正确样本为:1、2、3、4、5、6、10 共7个,其计算公式为:\(e^{-a_t}\),则正确样本权重变化系数为:\(e^{-0.4236} = 0.6547\)
- 分类错误样本为:7、8、9 共3个,其计算公式为:\(e^{a_t}\),则错误样本权重变化系数为:\(e^{0.4236} = 1.5275\)
- 样本 1、2、3、4、5、6、10 权重值为:0.06547(拿权重变化系数乘以样本先前的权重0.1)
- 样本 7、8、9 的样本权重值为:0.15275
- 归一化 \(Z_t\) 值为:\(0.06547 \times 7 + 0.15275 \times 3 = 0.9165\)
- 样本 1、2、3、4、5、6、10 最终权重值为:0.07143(0.06547/0.9165)
- 样本 7、8、9 的样本权重值为:0.1667(0.15275/0.9165)
| x | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 |
|---|---|---|---|---|---|---|---|---|---|---|
| w | 0.07143 | 0.07143 | 0.07143 | 0.07143 | 0.07143 | 0.07143 | 0.16667 | 0.16667 | 0.16667 | 0.07143 |
| y | 1 | 1 | 1 | -1 | -1 | -1 | 1 | 1 | 1 | -1 |
2.Adaboost算法-构建第2个弱学习器
2.1 寻找最优分裂点:
此时错误率的计算公式存在变化,不再是10个里面错5个,错误率就算0.5;
而是要看错的哪五个,错误率用对应样本权重相加(因为之前已经归一化了,所以十个样本权重相加还是为1),这样可以保证被第一个分类器分类错误的样本获得更高的关注度。
- 对特征值 x 进行排序,确定分裂点为:0.5、1.5、2.5、3.5、4.5、5.5、6.5、7.5、8.5
- 当以 0.5 为分裂点时,有 5 个样本分类错误,错误率为:0.07143 * 5 = 0.35715
- 当以 1.5 为分裂点时,有 4 个样本分类错误,错误率为:0.07143 * 1 + 0.16667 * 3 = 0.57144
- 当以 2.5 为分裂点时,有 3 个样本分类错误,错误率为:0.16667 * 3 = 0.57144
- ……
- 当以 8.5 为分裂点时,有 3 个样本分类错误,错误率为:0.07143 * 3 = 0.21429
- 最终,选择以 8.5 作为分裂点,计算得出基学习器错误率为:0.21429
2.2 计算模型权重:
\(1/2 * \text{np.log}((1-0.21429)/0.21429)=0.64963\)
2.3 按照公式更新样本权重
1.分类正确的样本:1、2、3、7、8、9、10,其计算公式为:\(e^{-a_t}\),则正确样本权重变化系数为:\(e^{-0.64963} = 0.5222\),
2.分类错误的样本:4、5、6,其权重调整系数为:\(e^{-0.0.64963} = 1.9148\)
3.分类正确样本权重值(用原来的权重乘权重调整系数):
3.1 样本 0、1、2、9 为:0.0373(0.07143乘0.5222)
3.2 样本 6、7、8 为:0.087(0.16667乘0.5222)
4.分类错误样本权重值:0.1368
5.归一化 \(Z_t\) 值为:\(0.0373 \times 4 + 0.087 \times 3 + 0.1368 \times 3 = 0.8206\)
6.最终权重(用原来的权重除以归一化\(Z_t\)):
6.1 样本 0、1、2、9 为:0.0455
6.2 样本 6、7、8 为:0.1060
6.3 样本 3、4、5 为:0.1667
| x | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 |
|---|---|---|---|---|---|---|---|---|---|---|
| w | 0.0455 | 0.0455 | 0.0455 | 0.16667 | 0.16667 | 0.16667 | 0.1060 | 0.1060 | 0.1060 | 0.0455 |
| y | 1 | 1 | 1 | -1 | -1 | -1 | 1 | 1 | 1 | -1 |
3.利用最终强学习器进行预测
该模型由构建的三个弱学习器,进行加权相加。各个弱学习器的权重为之前计算的模型权重
\(H(x) = \text{sign}(0.4236 * h_1(x) + 0.64963 * h_2(x) + 0.75515 * h_3(x)) \)
若\(H(x)\)的值大于0则归于正类;\(H(x)\)的值小于0归于负类
\(X = 3\)带入公式为:\(0.4236\times(-1) + 0.64963\times(1) + 0.75514\times(-1) = -0.52537 < 0\),属于负类

浙公网安备 33010602011771号