关于Adaboost学习笔记

内容来自B站老弓的学习笔记

链接：https://www.bilibili.com/video/BV1x44y1r7Zc?spm_id_from=333.999.0.0

【Adaboost】

【视频一】

集成学习：集成学习通过构建并结合多个学习器来完成学习任务

优点：可以多个学习器结合，获得比单一学习器更加显著优越的泛化性能。

需要注意的问题：

1个体学习器如何训练得到改变训练数据的权值或概率分布

2如何讲个体学习器组合线性相加还是其他方法？

boosting 个体学习器存在强依赖关系，必须串行生成的序列化方法
- 工作机制：提高前一轮被弱分类器分错的样本的权值，减小哪些在前一轮被弱分类器分对的样本的权值，使误分类的样本在后续受到更多的关注。
- 体现了串行
- 【加法模型】将弱分类器进行【线性组合】
- 代表算法
  - adaboose
  - GBDT
  - XGBoost
  - LightGBM
bagging
- 个体之间不存在强依赖关系，可同时生成的并行化方法。
- 工作机制：1从原始样本集抽出k个训练集。 2 k个训练集分别训练，得到k个模型体现了并行。 3 将上部分得到的k个模型，通过一定的方式组合起来（自助法，有放回抽样，可能抽到重复的样本。随机森林中还会抽取一定的特征）（分来问题【投票的方式】回归问题【均值】）
- 代表算法
  - 随机森林

【视频二】

Adaboost解决的问题是二分类问题

相当于改变了样本数量

【视频三】

算法流程：

一般基分类器都是同一种类型，比如都是逻辑回归。定下了基分类器那么训练方法也确定了比如说交叉熵损失。