摘要:
优点: 1.消除了过拟合 2.减小了预测的方差 notes: 1.决策树的特征重要性取决于特定数据,随机森林的特征重要性是决策树的均值 2.当我们在做数据预处理时,不能单看均值来判断某个特征对结果的影响,因为均值是整体的平均,正确的方式是看概率分布函数(或者概率密度函数,sns.kdeplot()) 阅读全文
摘要:
众所周知,决策树是一种树模型,可以用于分类和回归。这里总结一下自己认为重要的知识点: 前置概念: 熵:一种衡量不确定性的指标 条件熵:给定条件下的熵值 基尼不纯度:表示一个随机选中的样本在子集中被分错的可能性(被选中概率*被分错概率) 信息增益:熵-条件熵 (1)三大经典决策树: ID3:选择特征的 阅读全文