2015年5月7日

摘要: RDD是什么?RDD是Spark中的抽象数据结构类型,任何数据在Spark中都被表示为RDD。从编程的角度来看,RDD可以简单看成是一个数组。和普通数组的区别是,RDD中的数据是分区存储的,这样不同分区的数据就可以分布在不同的机器上,同时可以被并行处理。因此,Spark应用程序所做的无非是把需要处理... 阅读全文
posted @ 2015-05-07 14:46 jack_player 阅读(433) 评论(0) 推荐(0)

2015年4月16日

摘要: R在linux下编译安装的完整过程 阅读全文
posted @ 2015-04-16 11:03 jack_player 阅读(375) 评论(0) 推荐(0)

2015年3月25日

摘要: val file = sc.textFile("hdfs://zhcloudil-lcnode04:8020/user/cloudil/wc_spark.txt")val counts = file.flatMap(line => line.split(" ")).map(word => (word... 阅读全文
posted @ 2015-03-25 15:51 jack_player 阅读(516) 评论(0) 推荐(0)