摘要: 1. 什么是Rdd的分区器? * key-value类型的Rdd在Shuffle时,会根据key的特质进行分区 * 分区器就是 Partitioner的一个实现类 * 通过指定 numPartitions 确定分区个数 * getPartition(key: Any) 确定分区规则 2. Spark 阅读全文
posted @ 2022-04-02 18:07 学而不思则罔! 阅读(70) 评论(0) 推荐(0)
摘要: 1.什么是Rdd持久化? Rdd只会存储的元数据信息(切片的位置信息、Rdd的依赖关系、计算逻辑等),不会存储计算数据 Rdd可以通过Cache或者Persis或者CheckPoint方法,将前面Rdd的计算的结果缓存,默认会将数据存储到JVM的堆内存中 2.怎样将Rdd的计算结果持久化? 1.Ca 阅读全文
posted @ 2022-04-02 16:47 学而不思则罔! 阅读(147) 评论(0) 推荐(0)
摘要: 1.说明 /* * RDD 任务切分中间分为:Application、Job、Stage 和 Task Application:初始化一个SparkContext即生成一个Application; new SparkConf().setMaster("local").setAppName("dist 阅读全文
posted @ 2022-04-02 07:12 学而不思则罔! 阅读(137) 评论(0) 推荐(0)