随笔档案「2025年4月10日」：累加器和广播变量 ... - MrSponge

2025年4月10日

前言：由于Spark的闭包检查，Driver端的数据无法获取到Executor端的计算数据。因此需要特殊类型——累加器（ACC）目录累加器实现原理调用系统累加器注意事项自定义累加器广播变量累加器实现原理累加器用来把Executor端变量信息聚合到Driver端。再Driver程序中定义的变量 Read More

posted @ 2025-04-10 23:42 MrSponge Views(82) Comments(0) Diggs(0)

计算相同key的数据平均值 - aggregateByKey

查看源码发现 aggregateByKey 的返回值与传入的zeroVlue类型是一样的 package com.pzb.rdd.operator.transform import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf Read More

posted @ 2025-04-10 23:38 MrSponge Views(29) Comments(0) Diggs(0)

Scala自定义传参

最近在写Spark导数程序的时候，为了实现程序的多元化，即使用同一套程序，实现不同场景的需求，而参考Spark的org.apache.spark.deploy.master.MasterArguments解析main()方法参数写法 @tailrec def parameterMatching(ar Read More

posted @ 2025-04-10 23:35 MrSponge Views(26) Comments(0) Diggs(0)

Mr-Sponge

道阻且长啊~~~