2020 年 8月 4 日随笔档案 - 来自遥远的水星

2020年8月4日

摘要： RDD的持久化 1. RDD Cache缓存 RDD通过Cache或者Persist方法将前面的计算结果缓存，默认情况下会把数据以缓存在JVM的堆内存中。但是并不是这两个方法被调用时立即缓存，而是触发后面的action算子时，该RDD将会被缓存在计算节点的内存中，并供后面重用。使用 1.rdd 阅读全文

posted @ 2020-08-04 19:49 来自遥远的水星阅读(477) 评论(0) 推荐(0)

Spark(六)【RDD的血缘依赖】

摘要： RDD依赖关系 1. RDD血缘关系 RDD只支持粗粒度转换，即在大量记录上执行的单个操作。将创建RDD的一系列Lineage（血统）记录下来，以便恢复丢失的分区。RDD的Lineage会记录RDD的元数据信息和转换行为，当该RDD的部分分区数据丢失时，它可以根据这些信息来重新运算和恢复丢失的数阅读全文

posted @ 2020-08-04 19:45 来自遥远的水星阅读(443) 评论(0) 推荐(0)

Spark(四)【RDD编程算子】

摘要：测试准备 pom文件 <dependencies> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.12</artifactId> <version>3.0.0</version> </depende 阅读全文

posted @ 2020-08-04 14:35 来自遥远的水星阅读(467) 评论(0) 推荐(0)

Spark(三)【RDD中的自定义排序】

摘要：在RDD中默认的算子sortBy，sortByKey只能真的值类型数据升序或者降序现需要对自定义对象进行自定义排序。一组Person对象 /** * Person 样例类 * @param name * @param age */ case class Person1(name: String, 阅读全文

posted @ 2020-08-04 13:49 来自遥远的水星阅读(1015) 评论(0) 推荐(0)