学而不思则罔！

摘要： 1. 什么是累加器累加器是用来把Executor端的变量信息聚合到Driver端 2. 累加器实现原理 * 在Driver程序中定义的变量,在Executor端的每个Task节点上都会复制这个变量的副本 * ,每个Task节点更新这些副本的值后,再传回Driver端进行merge 3. 怎样获取累阅读全文

posted @ 2022-04-05 16:14 学而不思则罔！阅读(164) 评论(0) 推荐(0)

Jackson 使用篇

摘要： https://blog.csdn.net/qidasheng2012/article/details/105771052 https://developer.aliyun.com/article/696266 阅读全文

posted @ 2022-04-05 08:22 学而不思则罔！阅读(29) 评论(0) 推荐(0)

2022年4月3日

第五章_Spark核心编程_Rdd_读取&保存

摘要： 1.说明 * 1.Rdd文件读取和保存可以从两个角度来区分 * 文件格式 : text、json、csv、sequence文件、Object序列化文件 * 文件系统 : 本地文件系统、hdfs、hbase、各类型数据库 2.Spark中怎样读取&保存text文件？ 1.读取 * 1.SparkCo 阅读全文

posted @ 2022-04-03 08:10 学而不思则罔！阅读(332) 评论(0) 推荐(0)

2022年4月2日

第五章_Spark核心编程_Rdd_分区器

摘要： 1. 什么是Rdd的分区器？ * key-value类型的Rdd在Shuffle时,会根据key的特质进行分区 * 分区器就是 Partitioner的一个实现类 * 通过指定 numPartitions 确定分区个数 * getPartition(key: Any) 确定分区规则 2. Spark 阅读全文

posted @ 2022-04-02 18:07 学而不思则罔！阅读(72) 评论(0) 推荐(0)

私人小院

公告