随笔分类 -  Spark

spark学习内容
摘要:如果一个RDD在两个地方用到,就持久化他.不然第二次用到他时,会再次计算. 直接调用cache()或者presist()方法对指定的RDD进行缓存(持久化)操作,同时在方法中指定缓存的策略。 原文:https://www.jianshu.com/p/9555644ccc0f 阅读全文
posted @ 2020-11-19 11:03 宁君 阅读(114) 评论(0) 推荐(0)
摘要:问题一:有哪些资源可以分配给spark作业使用? 答案:executor个数,cpu per exector(每个executor可使用的CPU个数),memory per exector(每个executor可使用的内存),driver memory 问题二:在什么地方分配资源给spark作业? 阅读全文
posted @ 2020-11-19 11:02 宁君 阅读(532) 评论(0) 推荐(0)
摘要:作者:十一喵先森 链接:https://juejin.im/post/5e1c41c6f265da3e152d1e62 来源:掘金 著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。 对上文的总结. Shuffle 的核心要点 什么是shuffle? 需要统筹全局的算子,sort就 阅读全文
posted @ 2020-11-19 11:00 宁君 阅读(89) 评论(0) 推荐(0)
摘要:作者:十一喵先森 链接:https://juejin.im/post/5e1c414fe51d451cad4111d1 来源:掘金 著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。 对上文的总结 Spark 任务调度概述 一个Spark应用程序包括Job、Stage以及Task三 阅读全文
posted @ 2020-11-19 10:59 宁君 阅读(173) 评论(0) 推荐(0)
摘要:Spark 集群会启动 Driver 和 Executor 两种 JVM 进程 我们只关注Executor的内存. 分为堆内内存和堆外内存 内存分为 存储内存 : 存储数据用的. 执行内存: 执行shuffle时占用的. 其他内存: 用户自定义的对象. 堆内内存 这是由jvm管理.spark自己不知 阅读全文
posted @ 2020-11-19 10:57 宁君 阅读(98) 评论(0) 推荐(0)
摘要:Master URL Meaning local 在本地运行,只有一个工作进程,无并行计算能力。 local[K] 在本地运行,有K个工作进程,通常设置K为机器的CPU核心数量。 local[*] 在本地运行,工作进程数量等于机器的CPU核心数量。 spark://HOST:PORT 以Standa 阅读全文
posted @ 2020-11-19 10:56 宁君 阅读(186) 评论(0) 推荐(0)
摘要:提升Spark运行 spark.sql.adaptive.enabled=true spark的自适应执行,启动Adaptive Execution spark.dynamicAllocation.enabled=true 开启动态资源分配,Spark可以根据当前作业的负载动态申请和释放资源 spa 阅读全文
posted @ 2020-11-19 10:51 宁君 阅读(2206) 评论(0) 推荐(1)
摘要:1 Spark开发调优篇 原则一:避免创建重复的RDD 原则二:尽可能复用同一个RDD 原则三:对多次使用的RDD进行持久化 原则四:尽量避免使用shuffle类算子 因此在我们的开发过程中,能避免则尽可能避免使用reduceByKey、join、distinct、repartition等会进行sh 阅读全文
posted @ 2020-11-19 10:50 宁君 阅读(367) 评论(0) 推荐(1)