随机森林

现在现将随机森林的学习的大纲进行列举：

1.决策树的算法：

ID3，C4.5，CART,bagging,GBDT,RandomForest.

2.RandomForest的原理：

在m个样本中，有放回的随机抽取m个样本，作为训练集。将在n个特征中抽取k(k<n)个特征来构建决策树，通过构建T棵决策树组成随机森林。随机森林主要是建立在决策树的基础上的，通过一个随机的过程是不需要预剪枝和后剪枝的。还有一点是知道怎样决策树的信息熵和信息增益。还有一点是知道存储哪些变量，就是存储的信息这是现在比较难的点。一是需要存储：类型、属性（按照哪个属性进行分类的）、map<Integer,sonTree(子树)>、map<String(类别),List<Doc>（包含的文章）>

3.下载的代码。githup网址

4.算法流程图：

　　随机生成样本

　　随机生成样本属性（dictionary）

　　决策树模型

5.调优和集成：

没有进行剪枝操作。因为随机的原因，所以这是不需要的。

后续有时间将其内容进行补充完整。

posted @ 2016-12-04 22:46 天使_陈阅读(320) 评论(0) 收藏举报

刷新页面返回顶部

随机森林

公告