决策树总结

众所周知,决策树是一种树模型,可以用于分类和回归。这里总结一下自己认为重要的知识点:

前置概念:

熵:一种衡量不确定性的指标

条件熵:给定条件下的熵值

基尼不纯度:表示一个随机选中的样本在子集中被分错的可能性(被选中概率*被分错概率)

信息增益:熵-条件熵

(1)三大经典决策树:

ID3:选择特征的依据是信息增益,选择信息增益大的特征去划分

C4.5:选择特征的依据是信息增益比,选择信息增益比大的特征去划分

CART算法:Gini指数,选择基尼指数差值大的特征去划分

(2)防止过拟合:

1.预剪枝,在训练时可以设置参数 ,设置树的层数,每个叶子包含的最少数量等等  

2.后剪枝,剪枝标准是使用测试集评估,或者使用训练集统计分析(误差统计和重要性原则),重要性原则是指判断某两个特征是否相关性比较大,相关性较小的就不进行剪枝

 

posted @ 2020-10-13 20:31  hello!元卜  阅读(148)  评论(0)    收藏  举报