作业
集成的个体学习器要(),集成成后才更可能有性能的提升。
好的,这是一个非常核心的集成学习概念。
填空题的答案是:好而不同。
下面进行详细解释:
为什么是“好而不同”?
这四个字精辟地概括了构建一个强大集成模型的两个核心要素:
- 好 - 个体学习器自身要有一定的准确性
基本要求: 每个个体学习器(也称为“基学习器”)至少要比随机猜测强。如果一个学习器的准确率低于50%(对于二分类问题),那么它就是一个“坏”的学习器,集成后反而可能会拉低整体性能。
理想情况: 个体学习器越“好”(即准确率越高),集成的性能下限就越高。想象一个委员会,如果每个成员都是各自领域的专家,那么他们共同做出的决策质量基础就会很高。
- 不同 - 个体学习器之间要具有多样性
核心关键: 这是集成学习能够工作的根本原因。多样性意味着各个学习器会犯不同的错误。
工作原理: 当多个学习器对于同一个样本产生不同的预测结果时,通过“投票”或“平均”的集成策略,正确的预测可以被放大,而错误的预测则会相互抵消。这类似于“三个臭皮匠,顶个诸葛亮”的道理。
反例: 如果所有个体学习器都一模一样,那么集成后的结果和单个学习器不会有任何区别,因为大家会对同一个样本犯同样的错误。这样的集成是无效的。
一个简单的比喻
想象你在做一个选择题,有A、B、C、D四个选项。
场景一(好但相同): 你问了3个学霸,他们水平都很高(好),但他们的解题思路完全一样,所以他们都选择了同一个错误答案B。如果你听从他们,你也会选B,结果是错的。
场景二(不同但不好): 你问了3个学渣,他们各有各的“蒙题”方法(不同),但准确率都很低。一个人蒙A,一个人蒙B,一个人蒙C。虽然他们错误各不相同,但由于基础太差,最终通过投票得出的答案也很可能是错的。
场景三(好而不同): 你问了3个学霸,他们水平都很高(好),但解题思路和知识背景各有侧重(不同)。其中两人通过正确方法得出答案是A,一人因一个小疏忽得出答案是C。通过投票,最终正确答案A胜出。集成学习追求的就是这种效果。
如何实现“好而不同”?
在实际的集成学习方法中,通过不同的技术来引入“多样性”:
数据层面: 使用装袋法,如随机森林,通过自助采样 从原始数据集中生成多个不同的训练子集,用每个子集训练一个学习器。
特征层面: 在采样时不仅对样本采样,也对特征进行采样(例如随机森林中的 max_features 参数),使得每个学习器关注数据的不同方面。
模型层面:
使用提升法,如AdaBoost、GBDT,通过迭代地关注之前被分错的样本,序列地生成具有差异性的学习器。
使用不同的算法,例如将一个决策树、一个支持向量机和一个逻辑回归模型集成在一起,这叫做异质集成。
总结:
集成的个体学习器要 好而不同 ,集成后才更可能有性能的提升。其中,“好”是基础,保证了性能的下限;“不同”是关键,是性能得以突破和提升的上限保障。

浙公网安备 33010602011771号