摘要: 摘要:在随机森林之Bagging法中可以发现Bootstrap每次约有1/3的样本不会出现在Bootstrap所采集的样本集合中,当然也就没有参加决策树的建立,那是不是意味着就没有用了呢,答案是否定的。我们把这1/3的数据称为袋外数据oob(out of bag),它可以用于取代测试集误差估计方法. 在论文: 1:Bias,variance and prediction error for classification rules. 2: An Efficient Method To Estimate Baggin’s Generalization Error. 3:Bagging P... 阅读全文
posted @ 2013-11-20 20:38 人若无名 阅读(27590) 评论(0) 推荐(3) 编辑
摘要: 摘要:在随机森林介绍中提到了Bagging方法,这里就具体的学习下bagging方法。 Bagging方法是一个统计重采样的技术,它的基础是Bootstrap。基本思想是:利用Bootstrap方法重采样来生成多个版本的预测分类器,然后把这些分类器进行组合。通常情况下组合的分类器给出的结果比单一分类器的好,因为综合了各个分类器的特点。之所以用可重复的随机采样技术Bootstrap,是因为进行重复的随机采样所获得的样本可以得到没有或者含有较少的噪声数据。 在训练集上采样Bootstrap的方法进行采样,平均1/3的样本不会出现在采样的样本集合中,这就意味着训练集中的噪声点可能不会出现在Boo.. 阅读全文
posted @ 2013-11-20 17:50 人若无名 阅读(3618) 评论(0) 推荐(1) 编辑