随机森林
现在现将随机森林的学习的大纲进行列举:
1.决策树的算法:
ID3,C4.5,CART,bagging,GBDT,RandomForest.
2.RandomForest的原理:
在m个样本中,有放回的随机抽取m个样本,作为训练集。将在n个特征中抽取k(k<n)个特征来构建决策树,通过构建T棵决策树组成随机森林。随机森林主要是建立在决策树的基础上的,通过一个随机的过程是不需要预剪枝和后剪枝的。还有一点是知道怎样决策树的信息熵和信息增益。还有一点是知道存储哪些变量,就是存储的信息这是现在比较难的点。一是需要存储:类型、属性(按照哪个属性进行分类的)、map<Integer,sonTree(子树)>、map<String(类别),List<Doc>(包含的文章)>
3.下载的代码。githup网址
4.算法流程图:
随机生成样本
随机生成样本属性(dictionary)
决策树模型
5.调优和集成:
没有进行剪枝操作。因为随机的原因,所以这是不需要的。
后续有时间将其内容进行补充完整。
 
                    
                 
                
            
         浙公网安备 33010602011771号
浙公网安备 33010602011771号