摘要: spark 累加器、广播变量、Executor 的结构 spark 累加器 package com.shujia.spark import java.lang import org.apache.spark.rdd.RDD import org.apache.spark.util.LongAccum 阅读全文
posted @ 2022-03-11 21:38 阿伟宝座 阅读(93) 评论(0) 推荐(0)
摘要: Spark中的RDD缓存 cache 前面说到,spark中的RDD是没有数据的,因为数据流过而不留下, 有时候对同一个RDD我们需要使用多次,每次使用该RDD,数据都要重新调用,非常麻烦; 这时候我们可以通过对RDD进行缓存,将RDD缓存在内存或者磁盘里面, 这样就使RDD中含有数据了。 RDD缓 阅读全文
posted @ 2022-03-11 20:55 阿伟宝座 阅读(729) 评论(0) 推荐(0)
摘要: spark在Yarn上的资源调度和任务调度 一、spark的执行架构 spark代码会分为两部分:Driver端、Executor端 二、spark on yarn的资源调度(申请资源) 大数据引擎的执行过程: 1、资源调度(申请资源):申请CPU、内存、Executor的数量 2、任务调度(执行t 阅读全文
posted @ 2022-03-11 01:28 阿伟宝座 阅读(1467) 评论(1) 推荐(0)