摘要:
一、为什么要集成 我们在有限数据上训练模型,再用模型去预测新的数据,并期望在新数据上得到较低的预测损失,这里的预测损失可以指分类问题的错判率或回归问题的均方误差等各类评价指标。 对于实际问题中的数据,我们都可以认为它总是服从某一个分布,预测数据的平均损失主要来自三项: 第一项为数据真实值与模型平均预 阅读全文
摘要:
一、信息论基础 树具有天然的分支结构。对于分类问题而言,决策树的思想是用节点代表样本集合,通过某些判定条件来对节点内的样本进行分配,将它们划分到该节点下的子节点,并且要求各个子节点中类别的纯度之和应高于该节点中的类别纯度,从而起到分类效果。 节点纯度反映的是节点样本标签的不确定性。当一个节点的纯度较 阅读全文