上一页 1 ··· 6 7 8 9 10 11 12 13 14 ··· 35 下一页
摘要: 1. 说明 /* * 定义 : * def mapPartitions[U: ClassTag]( * f: Iterator[T] => Iterator[U], * preservesPartitioning: Boolean = false): RDD[U] * 功能 : * 1. 以分区为单 阅读全文
posted @ 2022-03-22 20:20 学而不思则罔! 阅读(63) 评论(0) 推荐(0)
摘要: 1. 说明 定义 : def map[U: ClassTag](f: T => U): RDD[U] 功能 : 通过对 RDD的所有元素应用一个函数 返回一个新的RDD 2. 思考 : map算子 和 Rdd分区 间的关系? object MapTestByPartition extends App 阅读全文
posted @ 2022-03-22 19:00 学而不思则罔! 阅读(59) 评论(0) 推荐(0)
摘要: 1. 什么是Rdd 算子 rdd的方法 => rdd的算子 => rdd的操作 2. Rdd 算子的分类 1. Transformation(转换) 算子 Transformation 操作是延迟计算的 也就是说 一个RDD转换生成另一个RDD操作时是不会马上执行的,需要等待有Actions操作时, 阅读全文
posted @ 2022-03-22 18:39 学而不思则罔! 阅读(89) 评论(0) 推荐(0)
摘要: 需求1 : 计算除去部门最高工资, 和最低工资的平均工资 (字节跳动面试) 1. 数据准备 -- DDL create table btab ( `id` string comment '员工id', `deptno` string comment '部门编号', `salary` int comm 阅读全文
posted @ 2022-03-21 20:03 学而不思则罔! 阅读(81) 评论(0) 推荐(0)
摘要: 1. 什么是Spark的并行度 、什么是Rdd的分区? 1. 什么是Spark的并行度 ? Driver 将任务进行切分成不同的Task, 再发送给 Executor 节点并行计算,并行计算的任务数量 我们称之为 并行度 2. 什么是Rdd的分区 ? 1. 将要操作的数据分成 若干份,以便 分布式计 阅读全文
posted @ 2022-03-21 17:37 学而不思则罔! 阅读(446) 评论(0) 推荐(0)
摘要: 1. 从集合(内存)中创建rdd //1. 从集合(内存)中创建rdd object initRddByList extends App { //1. 该对象用于 : Spark应用参数的配置 将Spark的各种参数设置为key,value // note : 1. 一旦一个SparkConf对象被 阅读全文
posted @ 2022-03-21 16:17 学而不思则罔! 阅读(105) 评论(0) 推荐(0)
摘要: 1. 思考 : 处理数据 需要哪些东西呢? 1. 计算资源(CPU&内存) 2. 计算模型(也就是计算逻辑) 2. 在Yarn 环境中,Rdd 执行流程 1. 启动 Yarn 集群环境 2. Spark 通过申请资源创建调度节点(ApplicationMaster)和计算节点(Executor) 3 阅读全文
posted @ 2022-03-21 16:11 学而不思则罔! 阅读(35) 评论(0) 推荐(0)
摘要: * Internally, each RDD is characterized by five main properties:(在内部,每个RDD有五个主要特性) * * - A list of partitions /** * 方法描述 : * 1. 返回当前Rdd 的分区对象的数组 */ pr 阅读全文
posted @ 2022-03-21 15:09 学而不思则罔! 阅读(53) 评论(0) 推荐(0)
摘要: 1. Rdd 是什么? 1. RDD(Resilient Distributed DataSet) 弹性分布式数据集, 是Spark中最基本的数据处理模型 它代表一个弹性的、不可变、可分区、里面的元素可并行计算 的集合 2. 代码中Rdd是 抽象类 abstract class RDD[T: Cla 阅读全文
posted @ 2022-03-21 15:07 学而不思则罔! 阅读(148) 评论(0) 推荐(0)
摘要: 1. filter 过滤算子 object filterTest extends App { /* * filter * 作用 : 传输过滤集合元素的函数,返回一个符合条件元素的新数组(会改变集合元素个数,但不会改变元素类型) * * 定义 : def filter(p: A => Boolean) 阅读全文
posted @ 2022-03-17 22:24 学而不思则罔! 阅读(445) 评论(0) 推荐(0)
上一页 1 ··· 6 7 8 9 10 11 12 13 14 ··· 35 下一页