02 2018 档案
摘要: 本章介绍了如何使用键值对RDD,Spark中很多操作都基于此数据类型。键值对RDD通常在聚合操作中使用,而且我们经常做一些初始的ETL(extract(提取),transform(转换)和load(加载))来把数据转化成键值对格式。键值对中有很多新操作(如,计算每个产品的评价
阅读全文
摘要:Common Transformations and Actions 本章中,我们浏览了Spark中大多数常见的transformation(转换)和action(开工)。在包含特定数据类型的RDD上可以进行额外的操作,例如,可以对纯数字RDD使用统计函数,对键值对的RDD进
阅读全文
摘要: 本章介绍了Spark用于数据处理的核心抽象概念,具有弹性的分布式数据集(RDD)。一个RDD仅仅是一个分布式的元素集合。在Spark中,所有工作都表示为创建新的RDDs、转换现有的RDD,或者调用RDD上的操作来计算结果。在底层,Spark自动将数据中包含的数据分发到你的集
阅读全文
摘要: 在网上找了很久中文版,感觉都是需要支付一定金币才能下载,索性自己翻译算了。因为对Spark有一定了解,而且书籍前面写道,对Spark了解可以直接从第三章阅读,就直接从第三章开始翻译了,应该没有什么影响。 tips:驱动程序就是写SparkRDD的main方法或者shell。(
阅读全文

浙公网安备 33010602011771号