摘要:
SparkSubmit -- main -- doSubmit // 解析参数 -- parseArguments // master => --master => yarn // mainClass => --class => SparkPi(WordCount) -- parse -- subm 阅读全文
posted @ 2022-01-09 16:45
爱吃麻辣烫呀
阅读(47)
评论(0)
推荐(0)
摘要:
1、https://blog.csdn.net/qq_30089191/article/details/73742425?utm_medium=distribute.pc_relevant.none-task-blog-2defaultOPENSEARCHdefault-3.control&dist 阅读全文
posted @ 2022-01-09 14:52
爱吃麻辣烫呀
阅读(43)
评论(0)
推荐(0)
摘要:
 阅读全文
posted @ 2022-01-09 14:30
爱吃麻辣烫呀
阅读(14)
评论(0)
推荐(0)
摘要:
累加器用来把Executor端变量信息聚合到Driver端。在Driver程序中定义的变量,在Executor端的每个Task都会得到这个变量的一份新的副本,每个task更新这些副本的值后,传回Driver端进行merge。 阅读全文
posted @ 2022-01-09 13:54
爱吃麻辣烫呀
阅读(57)
评论(0)
推荐(0)
摘要:
  阅读全文
posted @ 2022-01-09 13:22
爱吃麻辣烫呀
阅读(17)
评论(0)
推荐(0)
摘要:
Spark目前支持Hash分区和Range分区,和用户自定义分区。Hash分区为当前的默认分区。分区器直接决定了RDD中分区的个数、RDD中每条数据经过Shuffle后进入哪个分区,进而决定了Reduce的个数。 阅读全文
posted @ 2022-01-09 13:17
爱吃麻辣烫呀
阅读(54)
评论(0)
推荐(0)
摘要:
所谓的检查点其实就是通过将RDD中间结果写入磁盘 由于血缘依赖过长会造成容错成本过高,这样就不如在中间阶段做检查点容错,如果检查点之后有节点出现问题,可以从检查点开始重做血缘,减少了开销。 对RDD进行checkpoint操作并不会马上被执行,必须执行Action操作才能触发。 缓存和检查点区别 阅读全文
posted @ 2022-01-09 12:45
爱吃麻辣烫呀
阅读(84)
评论(0)
推荐(0)
摘要:
1、RDD Cache缓存 RDD通过Cache或者Persist方法将前面的计算结果缓存,默认情况下会把数据以缓存在JVM的堆内存中。但是并不是这两个方法被调用时立即缓存,而是触发后面的action算子时,该RDD将会被缓存在计算节点的内存中,并供后面重用。 缓存有可能丢失,或者存储于内存的数据由 阅读全文
posted @ 2022-01-09 11:47
爱吃麻辣烫呀
阅读(60)
评论(0)
推荐(0)
浙公网安备 33010602011771号