摘要:
RDD的持久化 1. RDD Cache缓存 RDD通过Cache或者Persist方法将前面的计算结果缓存,默认情况下会把数据以缓存在JVM的堆内存中。但是并不是这两个方法被调用时立即缓存,而是触发后面的action算子时,该RDD将会被缓存在计算节点的内存中,并供后面重用。 使用 1.rdd 阅读全文
posted @ 2020-08-04 19:49
来自遥远的水星
阅读(469)
评论(0)
推荐(0)
摘要:
RDD依赖关系 1. RDD血缘关系 RDD只支持粗粒度转换,即在大量记录上执行的单个操作。将创建RDD的一系列Lineage(血统)记录下来,以便恢复丢失的分区。RDD的Lineage会记录RDD的元数据信息和转换行为,当该RDD的部分分区数据丢失时,它可以根据这些信息来重新运算和恢复丢失的数 阅读全文
posted @ 2020-08-04 19:45
来自遥远的水星
阅读(441)
评论(0)
推荐(0)
摘要:
测试准备 pom文件 <dependencies> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.12</artifactId> <version>3.0.0</version> </depende 阅读全文
posted @ 2020-08-04 14:35
来自遥远的水星
阅读(464)
评论(0)
推荐(0)
摘要:
在RDD中默认的算子sortBy,sortByKey只能真的值类型数据升序或者降序 现需要对自定义对象进行自定义排序。 一组Person对象 /** * Person 样例类 * @param name * @param age */ case class Person1(name: String, 阅读全文
posted @ 2020-08-04 13:49
来自遥远的水星
阅读(1012)
评论(0)
推荐(0)

浙公网安备 33010602011771号