打赏
上一页 1 ··· 64 65 66 67 68 69 70 71 72 ··· 180 下一页
摘要: 不多说,直接上干货! Pair RDD的分区控制 Pair RDD的分区控制 (1) Spark 中所有的键值对RDD 都可以进行分区控制 自定义分区 (2)自定义分区的好处: 1) 避免数据倾斜 2) 控制task并行度 自定义分区方式 阅读全文
posted @ 2017-06-04 18:15 大数据和AI躺过的坑 阅读(638) 评论(0) 推荐(0)
摘要: 不多说,直接上干货! Pair RDD的action操作 所有基础RDD 支持的行动操作也都在pair RDD 上可用 阅读全文
posted @ 2017-06-04 18:13 大数据和AI躺过的坑 阅读(312) 评论(0) 推荐(0)
摘要: 不多说,直接上干货! Pair RDD的transformation操作 Pair RDD转换操作1 Pair RDD 可以使用所有标准RDD 上转化操作,还提供了特有的转换操作。 Pair RDD转换操作2 阅读全文
posted @ 2017-06-04 18:11 大数据和AI躺过的坑 阅读(422) 评论(0) 推荐(0)
摘要: 不多说,直接上干货! 创建Pair RDD scala语言 Java语言 阅读全文
posted @ 2017-06-04 18:08 大数据和AI躺过的坑 阅读(2500) 评论(0) 推荐(0)
摘要: 不多说,直接上干货! 什么是Pair RDD (1)包含键值对类型的RDD被称作Pair RDD。 (2)Pair RDD通常用来进行聚合计算。 (3)Pair RDD通常由普通RDD做ETL转换而来。 关于ETL的知识,请移步 http://www.cnblogs.com/zlslch/categ 阅读全文
posted @ 2017-06-04 18:02 大数据和AI躺过的坑 阅读(1203) 评论(0) 推荐(0)
摘要: 不多说,直接上干货! action操作 阅读全文
posted @ 2017-06-04 17:44 大数据和AI躺过的坑 阅读(466) 评论(0) 推荐(0)
摘要: 不多说,直接上干货! transformation操作 惰性求值 (1)RDD 的转化操作都是惰性求值的。这意味着在被调用行动操作之前Spark不会开始计算。 (2)读取数据到RDD的操作也是惰性的。 (3)惰性求值的好处: a. Spark 使用惰性求值可以把一些操作合并到一起来减少计算数据的步骤 阅读全文
posted @ 2017-06-04 17:43 大数据和AI躺过的坑 阅读(512) 评论(0) 推荐(0)
摘要: 不多说,直接上干货! 创建RDD 方式一:从集合创建RDD (1)makeRDD (2)Parallelize 注意:makeRDD可以指定每个分区perferredLocations参数,而parallelize则没有。 方式二:读取外部存储创建RDD Spark与Hadoop完全兼容,所以对Ha 阅读全文
posted @ 2017-06-04 17:41 大数据和AI躺过的坑 阅读(475) 评论(0) 推荐(0)
摘要: 不多说,直接上干货! 阅读全文
posted @ 2017-06-04 17:36 大数据和AI躺过的坑 阅读(363) 评论(0) 推荐(0)
摘要: 不多说,直接上干货! 阅读全文
posted @ 2017-06-04 17:34 大数据和AI躺过的坑 阅读(335) 评论(0) 推荐(0)
上一页 1 ··· 64 65 66 67 68 69 70 71 72 ··· 180 下一页