摘要: RDD的持久化 1. RDD Cache缓存 ​ RDD通过Cache或者Persist方法将前面的计算结果缓存,默认情况下会把数据以缓存在JVM的堆内存中。但是并不是这两个方法被调用时立即缓存,而是触发后面的action算子时,该RDD将会被缓存在计算节点的内存中,并供后面重用。 使用 1.rdd 阅读全文
posted @ 2020-08-04 19:49 来自遥远的水星 阅读(469) 评论(0) 推荐(0)
摘要: RDD依赖关系 1. RDD血缘关系 ​ RDD只支持粗粒度转换,即在大量记录上执行的单个操作。将创建RDD的一系列Lineage(血统)记录下来,以便恢复丢失的分区。RDD的Lineage会记录RDD的元数据信息和转换行为,当该RDD的部分分区数据丢失时,它可以根据这些信息来重新运算和恢复丢失的数 阅读全文
posted @ 2020-08-04 19:45 来自遥远的水星 阅读(441) 评论(0) 推荐(0)
摘要: 测试准备 pom文件 <dependencies> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.12</artifactId> <version>3.0.0</version> </depende 阅读全文
posted @ 2020-08-04 14:35 来自遥远的水星 阅读(464) 评论(0) 推荐(0)
摘要: 在RDD中默认的算子sortBy,sortByKey只能真的值类型数据升序或者降序 现需要对自定义对象进行自定义排序。 一组Person对象 /** * Person 样例类 * @param name * @param age */ case class Person1(name: String, 阅读全文
posted @ 2020-08-04 13:49 来自遥远的水星 阅读(1012) 评论(0) 推荐(0)