2020年12月31日

摘要: 在执行Spark的应用程序时,Spark集群会启动Driver和Executor两种JVM进程,前者为主控进程,后者负责执行具体的计算任务。 由于Driver的内存管理相对简单,本文主要对Executor的内存管理进行分析,下文中的Spark内存均特指Executor的内存。 1.堆内存和堆外内存 阅读全文
posted @ 2020-12-31 17:15 happygril3 阅读(166) 评论(0) 推荐(0)
摘要: 1.Shuffle简介 Shuffle描述着数据从map task输出到reduce task输入的这段过程。shuffle是连接Map和Reduce之间的桥梁,Map的输出要用到Reduce中必须经过shuffle这个环节,shuffle的性能高低直接影响了整个程序的性能和吞吐量。 因为在分布式情 阅读全文
posted @ 2020-12-31 14:53 happygril3 阅读(849) 评论(0) 推荐(0)
摘要: 1.任务调度 (1)在使用spark-summit或者spark-shell提交spark程序后,根据提交时指定(deploy-mode)的位置,创建driver进程,driver进程根据sparkconf中的配置,初始化sparkcontext。Sparkcontext的启动后,创建DAG Sch 阅读全文
posted @ 2020-12-31 09:47 happygril3 阅读(278) 评论(0) 推荐(0)

导航