随机森林

优点:

1.消除了过拟合

2.减小了预测的方差

notes:

1.决策树的特征重要性取决于特定数据,随机森林的特征重要性是决策树的均值

2.当我们在做数据预处理时,不能单看均值来判断某个特征对结果的影响,因为均值是整体的平均,正确的方式是看概率分布函数(或者概率密度函数,sns.kdeplot())

3.当进行数据切分时,使用train_test_split(strategy=y),是指在进行划分时也按照百分比进行,当数据不平衡时使用该方法

4.可以使用roc_auc_score和classification_report对分类效果进行评价(roc图:真阳性为纵坐标,假阳性为横坐标)

posted @ 2020-10-13 20:40  hello!元卜  阅读(94)  评论(0)    收藏  举报