决策树总结
众所周知,决策树是一种树模型,可以用于分类和回归。这里总结一下自己认为重要的知识点:
前置概念:
熵:一种衡量不确定性的指标
条件熵:给定条件下的熵值
基尼不纯度:表示一个随机选中的样本在子集中被分错的可能性(被选中概率*被分错概率)
信息增益:熵-条件熵
(1)三大经典决策树:
ID3:选择特征的依据是信息增益,选择信息增益大的特征去划分
C4.5:选择特征的依据是信息增益比,选择信息增益比大的特征去划分
CART算法:Gini指数,选择基尼指数差值大的特征去划分
(2)防止过拟合:
1.预剪枝,在训练时可以设置参数 ,设置树的层数,每个叶子包含的最少数量等等
2.后剪枝,剪枝标准是使用测试集评估,或者使用训练集统计分析(误差统计和重要性原则),重要性原则是指判断某两个特征是否相关性比较大,相关性较小的就不进行剪枝

浙公网安备 33010602011771号