代码改变世界

大数据工具比较:R 语言和 Spark 谁更胜一筹?

2016-05-25 14:26 by 猎手家园, 1177 阅读, 0 推荐, 收藏,
摘要:本文有两重目的,一是在性能方面快速对比下R语言和Spark,二是想向大家介绍下Spark的机器学习库 背景介绍 由于R语言本身是单线程的,所以可能从性能方面对比Spark和R并不是很明智的做法。即使这种比较不是很理想,但是对于那些曾经遇到过这些问题的人,下文中的一些数字一定会让你很感兴趣。 你是否曾 阅读全文

数据分析与挖掘 - R语言:贝叶斯分类算法(案例三)

2016-05-25 14:04 by 猎手家园, 7768 阅读, 0 推荐, 收藏,
摘要:案例三比较简单,不需要自己写公式算法,使用了R自带的naiveBayes函数。 代码如下: 预测结果为: 和原数据一样! *********************************这里是分割线************************************** 我们再拿这个方法来预测 阅读全文

数据分析与挖掘 - R语言:贝叶斯分类算法(案例二)

2016-05-25 13:43 by 猎手家园, 4273 阅读, 0 推荐, 收藏,
摘要:接着案例一,我们再使用另一种方法实例一个案例 直接上代码: 预测结果为: 可见该苹果的口味为:bad *********************************************这里是分割线************************************************ 阅读全文

数据分析与挖掘 - R语言:贝叶斯分类算法(案例一)

2016-05-25 13:31 by 猎手家园, 8934 阅读, 0 推荐, 收藏,
摘要:一个简单的例子!环境:CentOS6.5Hadoop集群、Hive、R、RHive,具体安装及调试方法见博客内文档。 名词解释: 先验概率:由以往的数据分析得到的概率, 叫做先验概率。 后验概率:而在得到信息之后,再重新加以修正的概率叫做后验概率。贝叶斯分类是后验概率。 贝叶斯分类算法步骤: 第一步 阅读全文

数据分析与挖掘 - R语言:KNN算法

2016-05-25 11:50 by 猎手家园, 3920 阅读, 0 推荐, 收藏,
摘要:一个简单的例子!环境:CentOS6.5Hadoop集群、Hive、R、RHive,具体安装及调试方法见博客内文档。 KNN算法步骤:需对所有样本点(已知分类+未知分类)进行归一化处理。然后,对未知分类的数据集中的每个样本点依次执行以下操作:1、计算已知类别数据集中的点与当前点(未知分类)的距离。2 阅读全文

R语言的scale函数

2016-05-19 10:47 by 猎手家园, 22394 阅读, 0 推荐, 收藏,
摘要:1、数据的中心化 所谓数据的中心化是指数据集中的各项数据减去数据集的均值。 例如有数据集1, 2, 3, 6, 3,其均值为3 那么中心化之后的数据集为1-3,2-3,3-3,6-3,3-3,即:-2,-1,0,3,0 2、数据的标准化 所谓数据的标准化是指中心化之后的数据在除以数据集的标准差,即数 阅读全文

R安装package报ERROR: a 'NAMESPACE' file is required

2016-05-18 11:09 by 猎手家园, 1745 阅读, 0 推荐, 收藏,
摘要:R安装package报错: 解决方案: 安装成功! 阅读全文

极限存储之拉链表

2016-05-17 15:23 by 猎手家园, 895 阅读, 0 推荐, 收藏,
摘要:在数据仓库的数据模型设计过程中,经常会遇到这样的需求: 1. 数据量比较大; 2. 表中的部分字段会被update,如用户的地址,产品的描述信息,订单的状态等等; 3. 需要查看某一个时间点或者时间段的历史快照信息,比如,查看某一个订单在历史某一个时间点的状态, 比如,查看某一个用户在过去某一段时间 阅读全文

CentOS6.5安装sqoop2

2016-05-17 11:39 by 猎手家园, 422 阅读, 0 推荐, 收藏,
摘要:1、下载软件:http://archive.cloudera.com/cdh5/cdh/5/ 2、解压:tar -zxvf mysofts/sqoop2-1.99.5-cdh5.6.0.tar.gz 3、配置环境变量 4、拷贝mysql驱动包到 $SQOOP2_HOME/server/lib下 驱动 阅读全文

CentOS6.5 安装Kafka集群

2016-05-17 11:34 by 猎手家园, 1415 阅读, 0 推荐, 收藏,
摘要:1、安装zookeeper 参考文档:http://www.cnblogs.com/hunttown/p/5452138.html 2、下载:https://www.apache.org/dyn/closer.cgi?path=/kafka/0.9.0.1/kafka_2.10-0.9.0.1.tg 阅读全文
上一页 1 ··· 25 26 27 28 29 30 31 32 33 ··· 37 下一页