02 2018 档案

摘要:  本章介绍了如何使用键值对RDD,Spark中很多操作都基于此数据类型。键值对RDD通常在聚合操作中使用,而且我们经常做一些初始的ETL(extract(提取),transform(转换)和load(加载))来把数据转化成键值对格式。键值对中有很多新操作(如,计算每个产品的评价 阅读全文
posted @ 2018-02-26 14:08 Tikko 阅读(1099) 评论(0) 推荐(0)
摘要:Common Transformations and Actions   本章中,我们浏览了Spark中大多数常见的transformation(转换)和action(开工)。在包含特定数据类型的RDD上可以进行额外的操作,例如,可以对纯数字RDD使用统计函数,对键值对的RDD进 阅读全文
posted @ 2018-02-24 13:29 Tikko 阅读(824) 评论(0) 推荐(0)
摘要:   本章介绍了Spark用于数据处理的核心抽象概念,具有弹性的分布式数据集(RDD)。一个RDD仅仅是一个分布式的元素集合。在Spark中,所有工作都表示为创建新的RDDs、转换现有的RDD,或者调用RDD上的操作来计算结果。在底层,Spark自动将数据中包含的数据分发到你的集 阅读全文
posted @ 2018-02-22 17:46 Tikko 阅读(857) 评论(0) 推荐(0)
摘要:  在网上找了很久中文版,感觉都是需要支付一定金币才能下载,索性自己翻译算了。因为对Spark有一定了解,而且书籍前面写道,对Spark了解可以直接从第三章阅读,就直接从第三章开始翻译了,应该没有什么影响。 tips:驱动程序就是写SparkRDD的main方法或者shell。( 阅读全文
posted @ 2018-02-22 17:44 Tikko 阅读(1318) 评论(0) 推荐(0)