摘要: 原文出处:http://xccds1977.blogspot.com/2012/11/blog-post_28.html决策树是一种简洁实用的数据挖掘方法。在R中通常可以用rpart包和party包来实现两种算法的决策树。最近著名的C4.5决策树算法的升级版本C5.0已经可以在官网下载到。对于这三种决策树算法,本文来做一个预测效果的简单对比。对比用的数据集是C50包中自带的churn数据,它是用来预测顾客流失的数据集,其中样本量为3333个,变量数为20个。为不平衡数据,没有缺失值存在。对比基本步骤是用10重交叉检验,将数据随机分为10份,用9份训练决策树,用1份来检验结果。循环后求出10个预 阅读全文
posted @ 2013-08-02 20:22 bourneli 阅读(556) 评论(0) 推荐(1) 编辑
摘要: Referer:http://www.quora.com/How-can-R-and-Hadoop-be-used-together/answer/Jay-Kreps?srid=OVd9&share=1Another way to answer this questionis that they don't really integrate very well.The advantage of R is not its syntax but rather the incredible library of primitives for visualization and sta 阅读全文
posted @ 2013-08-02 19:34 bourneli 阅读(419) 评论(0) 推荐(0) 编辑