关于MATLAB处理大数据坐标文件201761

前几天备战考试,接下来的日子将会继续攻克大数据比赛

   虽然停止了一段时间没有提交数据,但是这几天的收获还是有的,对Python 随机森林了解的更了解了

   随机森林是由多课决策树组成(当然这个虽然我们初学者都知道,但是我确定没有现在认识的深刻),多棵决策树经过数据训练后,经过投票方式对测试数据进行判断

   那么也就是说随机森林的鲁棒性非常好,我们现有的特征还不是特别多,之所以前一段时间出现“过拟合”现象,其实原因有可能是我们当时急功近利,把大多数正确率高的特征放在一起测试数据,导致的“过拟合”,其实非也,只是我们自己的条件太过苛刻。     突然想到一个词叫做“二八定律”,可以完美解释现在的领悟,20%的时间可以解决80%的问题,20%的人占有80%的资源,但是——其中还含有那抹不去的80%的时间或者问题。   那现在可以理解为,20%的特征可以解释80%的问题,那就是好特征,但是却不能忽视剩下的80%的特征

 接下来的日子我们应该继续寻找特征,直到达到真正的过拟合,才不枉这次比赛

  

posted @ 2017-06-01 22:15  jju_iipg  阅读(193)  评论(0编辑  收藏  举报