Spark - 随笔分类 - Antel

spark学习记录之join引发重复计算

摘要：一直对spark sql中的join操作感到迷惑，如果join之前的操作没有进行persist DataFrame的话，是否会存在让之前的transformation重复执行的问题，以及重复多少次。看一个例子考虑在map1/map2处设置一个累加器，join之后，看看map1/map2到底执行阅读全文

posted @ 2022-09-16 19:00 Antel 阅读(290) 评论(3) 推荐(0)

spark学习记录之withColumn重复计算

摘要：在使用Spark,尤其是Spark SQL时，经常会出现一些奇奇怪怪的效率低下问题。比如说，如果lineage比较长的时候，或者lineage比较复杂需要shuffle的时候，可能存在一定的rdd复用问题。通常在需要复用一个rdd的时候，建议进行persist。但是在实际情况下，又会经常出现不确定阅读全文

posted @ 2022-09-16 18:59 Antel 阅读(539) 评论(0) 推荐(0)

cgroup限制PySpark内存使用

摘要：根据业务需求，需要对pyspark内存资源进行限制本文使用的环境为pyspark 3.1.2，standalone模式不足之处还请指出 pyspark进程说明首先我们需要知道对pyspark进行内存限制，是限制哪部分的内存。先看一下执行pyspark任务需要启动哪些进程 pyspark与原版阅读全文

posted @ 2022-04-06 16:37 Antel 阅读(1125) 评论(0) 推荐(0)

Spark在standalone中关于core的参数设置

摘要：最近发现，在执行pyspark任务时，对pythonFunction的CPU使用率进行限制存在问题，究其根本，还是sparkConf的参数存在问题。梳理了下spark启动参数中关于core的设置问题执行spark-submit -h 得到spark启动参数的说明，截取部分关于core的说明 Cl 阅读全文

posted @ 2022-02-18 15:54 Antel 阅读(549) 评论(0) 推荐(0)

Antel

公告

随笔分类 - Spark

spark学习记录之join引发重复计算

spark学习记录之withColumn重复计算

cgroup限制PySpark内存使用

Spark在standalone中关于core的参数设置