摘要:
随机森林算法(RandomForest)的输出有一个变量是 feature_importances_ ,翻译过来是 特征重要性,具体含义是什么,这里试着解释一下。 参考官网和其他资料可以发现,RF可以输出两种 feature_importance,分别是Variable importance和Gin 阅读全文
posted @ 2018-06-27 15:21
小李哥0689
阅读(25746)
评论(0)
推荐(0)
摘要:
在学习决策树类的算法时,总是绕不开 信息熵、Gini指数和它们相关联的概念,概念不清楚,就很难理解决策树的构造过程,现在把这些概念捋一捋。 信息熵 信息熵,简称熵,用来衡量随机变量的不确定性大小,熵越大,说明随机变量的不确定性越大。计算公式如下: 考虑二元分布的情况,当取2为对数底时,可以得到如下的 阅读全文
posted @ 2018-06-27 14:47
小李哥0689
阅读(2038)
评论(0)
推荐(0)
摘要:
先扯闲篇儿~ 一个同事曾遭遇这样的面试题:在机器学习建模时,如果某个特征的取值范围比其他特征大很多,该如何处理? 同事脱口而出:做归一化或标准化处理,把特征取值范围缩小。 面试官给出的答案是:不用处理,只不过机器学习时这个特征对应的系数会很小而已。 于是此君面试没过... orz 我此前在机器学习上 阅读全文
posted @ 2018-06-27 10:51
小李哥0689
阅读(236)
评论(0)
推荐(0)