集成学习
集成学习
在机器学习中,只使用一个模型容易出现过拟合现象,并且发挥不出数据量大的优势。
集成学习的思路是将一堆效果一般的模型通过某种方式组合在一起,形成一个更有效的大模型。
具体地,设训练集为 $D$,特征集为 $A$,每次选择 $D$ 和 $A$ 的子集 $D', A'$ 作为训练数据训练若干个小模型。
在测试时将测试数据依次通过每一个小模型,通过取平均值或多数表决的方法给出输出结果。
随机森林
决策树可以完成分类和回归任务,那么相应的由决策树组成的随机森林也可以做这些。
随机森林采用的是 Bagging 的思想,具体地:
(1)每次有放回地从训练数据集和特征集取出 $D'$ 与 $A'$,组成新的训练集。
(2)利用新的训练集得到 $M$ 个模型。
(3)对于分类问题,采用多数表决方法;对于回归问题采用取均值方法。
随机森林算法就是形成若干个决策树,然后在测试时考虑进每一个决策树的结果。