大数据和AI躺过的坑

2017年6月4日

摘要：不多说，直接上干货！ Pair RDD的分区控制 Pair RDD的分区控制（1） Spark 中所有的键值对RDD 都可以进行分区控制自定义分区（2）自定义分区的好处： 1) 避免数据倾斜 2) 控制task并行度自定义分区方式阅读全文

posted @ 2017-06-04 18:15 大数据和AI躺过的坑阅读(640) 评论(0) 推荐(0)

Spark RDD概念学习系列之Pair RDD的action操作

摘要：不多说，直接上干货！ Pair RDD的action操作所有基础RDD 支持的行动操作也都在pair RDD 上可用阅读全文

posted @ 2017-06-04 18:13 大数据和AI躺过的坑阅读(313) 评论(0) 推荐(0)

Spark RDD概念学习系列之Pair RDD的transformation操作

摘要：不多说，直接上干货！ Pair RDD的transformation操作 Pair RDD转换操作1 Pair RDD 可以使用所有标准RDD 上转化操作，还提供了特有的转换操作。 Pair RDD转换操作2 阅读全文

posted @ 2017-06-04 18:11 大数据和AI躺过的坑阅读(423) 评论(0) 推荐(0)

Spark RDD概念学习系列之如何创建Pair RDD

摘要：不多说，直接上干货！创建Pair RDD scala语言 Java语言阅读全文

posted @ 2017-06-04 18:08 大数据和AI躺过的坑阅读(2500) 评论(0) 推荐(0)

Spark RDD概念学习系列之什么是Pair RDD

摘要：不多说，直接上干货！什么是Pair RDD （1）包含键值对类型的RDD被称作Pair RDD。（2）Pair RDD通常用来进行聚合计算。（3）Pair RDD通常由普通RDD做ETL转换而来。关于ETL的知识，请移步 http://www.cnblogs.com/zlslch/categ 阅读全文

posted @ 2017-06-04 18:02 大数据和AI躺过的坑阅读(1205) 评论(0) 推荐(0)

Spark RDD概念学习系列之action操作

摘要：不多说，直接上干货！ action操作阅读全文

posted @ 2017-06-04 17:44 大数据和AI躺过的坑阅读(468) 评论(0) 推荐(0)

Spark RDD概念学习系列之transformation操作

摘要：不多说，直接上干货！ transformation操作惰性求值（1）RDD 的转化操作都是惰性求值的。这意味着在被调用行动操作之前Spark不会开始计算。（2）读取数据到RDD的操作也是惰性的。（3）惰性求值的好处： a. Spark 使用惰性求值可以把一些操作合并到一起来减少计算数据的步骤阅读全文

posted @ 2017-06-04 17:43 大数据和AI躺过的坑阅读(520) 评论(0) 推荐(0)

Spark RDD概念学习系列之如何创建RDD

摘要：不多说，直接上干货！创建RDD 方式一：从集合创建RDD （1）makeRDD （2）Parallelize 注意：makeRDD可以指定每个分区perferredLocations参数，而parallelize则没有。方式二：读取外部存储创建RDD Spark与Hadoop完全兼容，所以对Ha 阅读全文

posted @ 2017-06-04 17:41 大数据和AI躺过的坑阅读(479) 评论(0) 推荐(0)

Spark RDD概念学习系列之不同角度看RDD

摘要：不多说，直接上干货！阅读全文

posted @ 2017-06-04 17:36 大数据和AI躺过的坑阅读(364) 评论(0) 推荐(0)

Spark RDD概念学习系列之典型RDD的特征

摘要：不多说，直接上干货！阅读全文

posted @ 2017-06-04 17:34 大数据和AI躺过的坑阅读(337) 评论(0) 推荐(0)

大数据和人工智能躺过的坑

公告