摘要:
需求1 : 计算除去部门最高工资, 和最低工资的平均工资 (字节跳动面试) 1. 数据准备 -- DDL create table btab ( `id` string comment '员工id', `deptno` string comment '部门编号', `salary` int comm 阅读全文
posted @ 2022-03-21 20:03
学而不思则罔!
阅读(81)
评论(0)
推荐(0)
摘要:
1. 什么是Spark的并行度 、什么是Rdd的分区? 1. 什么是Spark的并行度 ? Driver 将任务进行切分成不同的Task, 再发送给 Executor 节点并行计算,并行计算的任务数量 我们称之为 并行度 2. 什么是Rdd的分区 ? 1. 将要操作的数据分成 若干份,以便 分布式计 阅读全文
posted @ 2022-03-21 17:37
学而不思则罔!
阅读(446)
评论(0)
推荐(0)
摘要:
1. 从集合(内存)中创建rdd //1. 从集合(内存)中创建rdd object initRddByList extends App { //1. 该对象用于 : Spark应用参数的配置 将Spark的各种参数设置为key,value // note : 1. 一旦一个SparkConf对象被 阅读全文
posted @ 2022-03-21 16:17
学而不思则罔!
阅读(105)
评论(0)
推荐(0)
摘要:
1. 思考 : 处理数据 需要哪些东西呢? 1. 计算资源(CPU&内存) 2. 计算模型(也就是计算逻辑) 2. 在Yarn 环境中,Rdd 执行流程 1. 启动 Yarn 集群环境 2. Spark 通过申请资源创建调度节点(ApplicationMaster)和计算节点(Executor) 3 阅读全文
posted @ 2022-03-21 16:11
学而不思则罔!
阅读(35)
评论(0)
推荐(0)
摘要:
* Internally, each RDD is characterized by five main properties:(在内部,每个RDD有五个主要特性) * * - A list of partitions /** * 方法描述 : * 1. 返回当前Rdd 的分区对象的数组 */ pr 阅读全文
posted @ 2022-03-21 15:09
学而不思则罔!
阅读(53)
评论(0)
推荐(0)
摘要:
1. Rdd 是什么? 1. RDD(Resilient Distributed DataSet) 弹性分布式数据集, 是Spark中最基本的数据处理模型 它代表一个弹性的、不可变、可分区、里面的元素可并行计算 的集合 2. 代码中Rdd是 抽象类 abstract class RDD[T: Cla 阅读全文
posted @ 2022-03-21 15:07
学而不思则罔!
阅读(148)
评论(0)
推荐(0)

浙公网安备 33010602011771号