随机森林
优点:
1.消除了过拟合
2.减小了预测的方差
notes:
1.决策树的特征重要性取决于特定数据,随机森林的特征重要性是决策树的均值
2.当我们在做数据预处理时,不能单看均值来判断某个特征对结果的影响,因为均值是整体的平均,正确的方式是看概率分布函数(或者概率密度函数,sns.kdeplot())
3.当进行数据切分时,使用train_test_split(strategy=y),是指在进行划分时也按照百分比进行,当数据不平衡时使用该方法
4.可以使用roc_auc_score和classification_report对分类效果进行评价(roc图:真阳性为纵坐标,假阳性为横坐标)

浙公网安备 33010602011771号