前言:由于Spark的闭包检查,Driver端的数据无法获取到Executor端的计算数据。 因此需要特殊类型——累加器(ACC) 目录累加器实现原理调用系统累加器注意事项自定义累加器广播变量 累加器实现原理 累加器用来把Executor端变量信息聚合到Driver端。再Driver程序中定义的变量 Read More
posted @ 2025-04-10 23:42 MrSponge Views(74) Comments(0) Diggs(0)
查看源码发现 aggregateByKey 的返回值与传入的zeroVlue类型是一样的 package com.pzb.rdd.operator.transform import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf Read More
posted @ 2025-04-10 23:38 MrSponge Views(24) Comments(0) Diggs(0)
最近在写Spark导数程序的时候,为了实现程序的多元化,即使用同一套程序,实现不同场景的需求,而参考Spark的org.apache.spark.deploy.master.MasterArguments解析main()方法参数写法 @tailrec def parameterMatching(ar Read More
posted @ 2025-04-10 23:35 MrSponge Views(22) Comments(0) Diggs(0)