2018 年 6月 27 日随笔档案 - 小李哥0689

2018年6月27日

摘要：随机森林算法（RandomForest）的输出有一个变量是 feature_importances_ ，翻译过来是特征重要性，具体含义是什么，这里试着解释一下。参考官网和其他资料可以发现，RF可以输出两种 feature_importance，分别是Variable importance和Gin 阅读全文

posted @ 2018-06-27 15:21 小李哥0689 阅读(25746) 评论(0) 推荐(0)

熵互信息 Gini指数和不纯度

摘要：在学习决策树类的算法时，总是绕不开信息熵、Gini指数和它们相关联的概念，概念不清楚，就很难理解决策树的构造过程，现在把这些概念捋一捋。信息熵信息熵，简称熵，用来衡量随机变量的不确定性大小，熵越大，说明随机变量的不确定性越大。计算公式如下：考虑二元分布的情况，当取2为对数底时，可以得到如下的阅读全文

posted @ 2018-06-27 14:47 小李哥0689 阅读(2038) 评论(0) 推荐(0)

聊聊归一化和标准化

摘要：先扯闲篇儿~ 一个同事曾遭遇这样的面试题：在机器学习建模时，如果某个特征的取值范围比其他特征大很多，该如何处理？同事脱口而出：做归一化或标准化处理，把特征取值范围缩小。面试官给出的答案是：不用处理，只不过机器学习时这个特征对应的系数会很小而已。于是此君面试没过... orz 我此前在机器学习上阅读全文

posted @ 2018-06-27 10:51 小李哥0689 阅读(236) 评论(0) 推荐(0)

小李飞刀

金融AI建模工程师

公告