随笔档案「2020年12月31日」：内存机制 ... - happygril3

内存机制

摘要：在执行Spark的应用程序时，Spark集群会启动Driver和Executor两种JVM进程，前者为主控进程，后者负责执行具体的计算任务。由于Driver的内存管理相对简单，本文主要对Executor的内存管理进行分析，下文中的Spark内存均特指Executor的内存。 1.堆内存和堆外内存阅读全文

posted @ 2020-12-31 17:15 happygril3 阅读(171) 评论(0) 推荐(0)

shuffle解析

摘要： 1.Shuffle简介 Shuffle描述着数据从map task输出到reduce task输入的这段过程。shuffle是连接Map和Reduce之间的桥梁，Map的输出要用到Reduce中必须经过shuffle这个环节，shuffle的性能高低直接影响了整个程序的性能和吞吐量。因为在分布式情阅读全文

posted @ 2020-12-31 14:53 happygril3 阅读(875) 评论(0) 推荐(0)

任务划分

摘要： 1.任务调度（1）在使用spark-summit或者spark-shell提交spark程序后，根据提交时指定（deploy-mode）的位置，创建driver进程，driver进程根据sparkconf中的配置，初始化sparkcontext。Sparkcontext的启动后，创建DAG Sch 阅读全文

posted @ 2020-12-31 09:47 happygril3 阅读(290) 评论(0) 推荐(0)

happygril3

导航

公告