查看文本打印 1 1

随机森林

现在现将随机森林的学习的大纲进行列举:

1.决策树的算法:

ID3,C4.5,CART,bagging,GBDT,RandomForest.

2.RandomForest的原理:

在m个样本中,有放回的随机抽取m个样本,作为训练集。将在n个特征中抽取k(k<n)个特征来构建决策树,通过构建T棵决策树组成随机森林。随机森林主要是建立在决策树的基础上的,通过一个随机的过程是不需要预剪枝和后剪枝的。还有一点是知道怎样决策树的信息熵和信息增益。还有一点是知道存储哪些变量,就是存储的信息这是现在比较难的点。一是需要存储:类型、属性(按照哪个属性进行分类的)、map<Integer,sonTree(子树)>、map<String(类别),List<Doc>(包含的文章)>

3.下载的代码。githup网址

4.算法流程图:

  随机生成样本

  随机生成样本属性(dictionary)

  决策树模型

5.调优和集成:

没有进行剪枝操作。因为随机的原因,所以这是不需要的。

 

 

后续有时间将其内容进行补充完整。

posted @ 2016-12-04 22:46  天使_陈  阅读(316)  评论(0)    收藏  举报