摘要: 随机森林算法(RandomForest)的输出有一个变量是 feature_importances_ ,翻译过来是 特征重要性,具体含义是什么,这里试着解释一下。 参考官网和其他资料可以发现,RF可以输出两种 feature_importance,分别是Variable importance和Gin 阅读全文
posted @ 2018-06-27 15:21 小李哥0689 阅读(25746) 评论(0) 推荐(0)
摘要: 在学习决策树类的算法时,总是绕不开 信息熵、Gini指数和它们相关联的概念,概念不清楚,就很难理解决策树的构造过程,现在把这些概念捋一捋。 信息熵 信息熵,简称熵,用来衡量随机变量的不确定性大小,熵越大,说明随机变量的不确定性越大。计算公式如下: 考虑二元分布的情况,当取2为对数底时,可以得到如下的 阅读全文
posted @ 2018-06-27 14:47 小李哥0689 阅读(2038) 评论(0) 推荐(0)
摘要: 先扯闲篇儿~ 一个同事曾遭遇这样的面试题:在机器学习建模时,如果某个特征的取值范围比其他特征大很多,该如何处理? 同事脱口而出:做归一化或标准化处理,把特征取值范围缩小。 面试官给出的答案是:不用处理,只不过机器学习时这个特征对应的系数会很小而已。 于是此君面试没过... orz 我此前在机器学习上 阅读全文
posted @ 2018-06-27 10:51 小李哥0689 阅读(236) 评论(0) 推荐(0)