11 2021 档案

摘要:num-executors 参数说明:参数用于设置Spark作业总共要用多少个Executor进程来执行。Driver在向YARN集群管理器申请资源时,YARN集群管理器会尽可能按照你的设置来在集群的各个工作节点上, 启动相应数量的Executor进程。这个参数非常之重要,如果不设置的话,默认只会给 阅读全文
posted @ 2021-11-17 10:27 lmandcc 阅读(365) 评论(0) 推荐(0)
摘要:原则一:避免创建重复的RDD 通常来说,我们在开发一个Spark作业时,首先是基于某个数据源(比如Hive表或HDFS文件)创建一个初始的RDD;接着对这个RDD执行某个算子操作,然后得到下一个RDD; 以此类推,循环往复,直到计算出最终我们需要的结果。在这个过程中,多个RDD会通过不同的算子操作( 阅读全文
posted @ 2021-11-17 09:28 lmandcc 阅读(241) 评论(0) 推荐(0)
摘要:SparkStreaming案例 案例1-WordCount yum install -y nc https://github.com/apache/spark/blob/master/examples/src/main/scala/org/apache/spark/examples/streami 阅读全文
posted @ 2021-11-15 21:32 lmandcc 阅读(82) 评论(0) 推荐(0)
摘要:Spark比MR快的原因 1、Spark基于内存的计算 2、粗粒度资源调度 3、DAG有向无环图:可以根据宽窄依赖划分出可以并行计算的task 细粒度资源调度 MR是属于细粒度资源调度 优点:每个task运行的时候单独申请资源,资源被充分利用 缺点:task启动速度慢 粗粒度资源调度 Spark是属 阅读全文
posted @ 2021-11-12 21:09 lmandcc 阅读(413) 评论(0) 推荐(1)
摘要:DAG(有向无环图) Spark的DAG:就是spark任务/程序执行的流程图! DAG的开始:从创建RDD开始 DAG的结束:到Action结束 一个Spark程序中有几个Action操作就有几个DAG! Stage(阶段) 为什么需要划分Stage? 前面提到Spark可以根据代码执行流程形成一 阅读全文
posted @ 2021-11-12 20:34 lmandcc 阅读(410) 评论(0) 推荐(0)
摘要:宽依赖 1.有shuffle 2.父RDD的一个分区会被子RDD的多个分区所依赖(父一对多) 窄依赖 1.没有shuffle 2.父RDD的一个分区只会被子RDD的1个分区所依赖(一对一) 划分宽依赖和窄依赖的原因 窄依赖:Spark可以对窄依赖进行优化:合并操作,形成pipeline(管道),同一 阅读全文
posted @ 2021-11-12 20:18 lmandcc 阅读(372) 评论(0) 推荐(0)
摘要:Spark中术语解释 Application:基于Spark的应用程序,包含了driver程序和 集群上的executor DriverProgram:运行main函数并且新建SparkContext的程序 ClusterManager:在集群上获取资源的外部服务(例如 standalone,Mes 阅读全文
posted @ 2021-11-12 19:47 lmandcc 阅读(198) 评论(0) 推荐(0)
摘要:RDD的缓存/持久化 缓存解决的问题 缓存解决什么问题?-解决的是热点数据频繁访问的效率问题 在Spark开发中某些RDD的计算或转换可能会比较耗费时间, 如果这些RDD后续还会频繁的被使用到,那么可以将这些RDD进行持久化/缓存, 这样下次再使用到的时候就不用再重新计算了,提高了程序运行的效率。 阅读全文
posted @ 2021-11-11 22:11 lmandcc 阅读(184) 评论(0) 推荐(0)
摘要:RDD的详解 RDD:弹性分布式数据集,是Spark中最基本的数据抽象,用来表示分布式集合,支持分布式操作! RDD的创建 RDD中的数据可以来源于2个地方:本地集合或外部数据源 RDD操作 分类 转换算子 Map import org.apache.spark.rdd.RDD import org 阅读全文
posted @ 2021-11-10 20:39 lmandcc 阅读(1498) 评论(0) 推荐(1)
摘要:原理 两种模式 client-了解 cluster模式-开发使用 操作 1.需要Yarn集群 2.历史服务器 3.提交任务的的客户端工具-spark-submit命令 4.待提交的spark任务/程序的字节码--可以使用示例程序 spark-shell和spark-submit 两个命令的区别 sp 阅读全文
posted @ 2021-11-09 22:29 lmandcc 阅读(96) 评论(0) 推荐(0)
摘要:1.分区列表(a list of partitions)。Spark RDD是被分区的,每一个分区都会被一个计算任务(Task)处理,分区数决定并行计算数量,RDD的并行度默认从父RDD传给子RDD。默认情况下,一个HDFS上的数据分片就是一个Partition,RDD分片数决定了并行计算的力度,可 阅读全文
posted @ 2021-11-08 22:12 lmandcc 阅读(1032) 评论(0) 推荐(0)
摘要:1.Spark下载 https://archive.apache.org/dist/spark/ 2.上传解压,配置环境变量 配置bin目录 解压:tar -zxvf spark-2.4.5-bin-hadoop2.7.tgz -C /usr/local/soft/ 改名:mv spark-2.4. 阅读全文
posted @ 2021-11-08 21:36 lmandcc 阅读(1446) 评论(0) 推荐(0)