博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

随笔分类 -  Spark

摘要:一直对spark sql中的join操作感到迷惑, 如果join之前的操作没有进行persist DataFrame的话,是否会存在让之前的transformation重复执行的问题,以及重复多少次。 看一个例子 考虑在map1/map2处设置一个累加器,join之后,看看map1/map2到底执行 阅读全文

posted @ 2022-09-16 19:00 Antel 阅读(290) 评论(3) 推荐(0)

摘要:在使用Spark,尤其是Spark SQL时,经常会出现一些奇奇怪怪的效率低下问题。比如说,如果lineage比较长的时候,或者lineage比较复杂需要shuffle的时候,可能存在一定的rdd复用问题。 通常在需要复用一个rdd的时候,建议进行persist。但是在实际情况下,又会经常出现不确定 阅读全文

posted @ 2022-09-16 18:59 Antel 阅读(539) 评论(0) 推荐(0)

摘要:根据业务需求,需要对pyspark内存资源进行限制 本文使用的环境为pyspark 3.1.2,standalone模式 不足之处还请指出 pyspark进程说明 首先我们需要知道对pyspark进行内存限制,是限制哪部分的内存。 先看一下执行pyspark任务需要启动哪些进程 pyspark与原版 阅读全文

posted @ 2022-04-06 16:37 Antel 阅读(1125) 评论(0) 推荐(0)

摘要:最近发现,在执行pyspark任务时,对pythonFunction的CPU使用率进行限制存在问题,究其根本,还是sparkConf的参数存在问题。 梳理了下spark启动参数中关于core的设置问题 执行spark-submit -h 得到spark启动参数的说明,截取部分关于core的说明 Cl 阅读全文

posted @ 2022-02-18 15:54 Antel 阅读(549) 评论(0) 推荐(0)