随笔档案「2021年11月」 - lmandcc

Spark中配置参数的优化

摘要：num-executors 参数说明：参数用于设置Spark作业总共要用多少个Executor进程来执行。Driver在向YARN集群管理器申请资源时，YARN集群管理器会尽可能按照你的设置来在集群的各个工作节点上，启动相应数量的Executor进程。这个参数非常之重要，如果不设置的话，默认只会给阅读全文

posted @ 2021-11-17 10:27 lmandcc 阅读(365) 评论(0) 推荐(0)

Spark性能调优——9项基本原则

摘要：原则一：避免创建重复的RDD 通常来说，我们在开发一个Spark作业时，首先是基于某个数据源（比如Hive表或HDFS文件）创建一个初始的RDD；接着对这个RDD执行某个算子操作，然后得到下一个RDD；以此类推，循环往复，直到计算出最终我们需要的结果。在这个过程中，多个RDD会通过不同的算子操作（阅读全文

posted @ 2021-11-17 09:28 lmandcc 阅读(241) 评论(0) 推荐(0)

SparkStreaming

摘要：SparkStreaming案例案例1-WordCount yum install -y nc https://github.com/apache/spark/blob/master/examples/src/main/scala/org/apache/spark/examples/streami 阅读全文

posted @ 2021-11-15 21:32 lmandcc 阅读(82) 评论(0) 推荐(0)

Spark中资源调度和任务调度

摘要：Spark比MR快的原因 1、Spark基于内存的计算 2、粗粒度资源调度 3、DAG有向无环图：可以根据宽窄依赖划分出可以并行计算的task 细粒度资源调度 MR是属于细粒度资源调度优点：每个task运行的时候单独申请资源，资源被充分利用缺点：task启动速度慢粗粒度资源调度 Spark是属阅读全文

posted @ 2021-11-12 21:09 lmandcc 阅读(413) 评论(0) 推荐(1)

Spark中的DAG和Stage

摘要：DAG（有向无环图） Spark的DAG:就是spark任务/程序执行的流程图! DAG的开始:从创建RDD开始 DAG的结束:到Action结束一个Spark程序中有几个Action操作就有几个DAG! Stage(阶段) 为什么需要划分Stage? 前面提到Spark可以根据代码执行流程形成一阅读全文

posted @ 2021-11-12 20:34 lmandcc 阅读(410) 评论(0) 推荐(0)

RDD中的依赖关系

摘要：宽依赖 1.有shuffle 2.父RDD的一个分区会被子RDD的多个分区所依赖（父一对多）窄依赖 1.没有shuffle 2.父RDD的一个分区只会被子RDD的1个分区所依赖（一对一）划分宽依赖和窄依赖的原因窄依赖:Spark可以对窄依赖进行优化:合并操作,形成pipeline(管道),同一阅读全文

posted @ 2021-11-12 20:18 lmandcc 阅读(372) 评论(0) 推荐(0)

Spark中的共享变量

摘要：Spark中术语解释 Application：基于Spark的应用程序，包含了driver程序和集群上的executor DriverProgram：运行main函数并且新建SparkContext的程序 ClusterManager：在集群上获取资源的外部服务(例如 standalone,Mes 阅读全文

posted @ 2021-11-12 19:47 lmandcc 阅读(198) 评论(0) 推荐(0)

RDD的缓存

摘要：RDD的缓存/持久化缓存解决的问题缓存解决什么问题?-解决的是热点数据频繁访问的效率问题在Spark开发中某些RDD的计算或转换可能会比较耗费时间，如果这些RDD后续还会频繁的被使用到，那么可以将这些RDD进行持久化/缓存，这样下次再使用到的时候就不用再重新计算了，提高了程序运行的效率。阅读全文

posted @ 2021-11-11 22:11 lmandcc 阅读(184) 评论(0) 推荐(0)

RDD的详解、创建及其操作

摘要：RDD的详解 RDD:弹性分布式数据集,是Spark中最基本的数据抽象,用来表示分布式集合,支持分布式操作! RDD的创建 RDD中的数据可以来源于2个地方：本地集合或外部数据源 RDD操作分类转换算子 Map import org.apache.spark.rdd.RDD import org 阅读全文

posted @ 2021-11-10 20:39 lmandcc 阅读(1498) 评论(0) 推荐(1)

Spark-On-Yarn

摘要：原理两种模式 client-了解 cluster模式-开发使用操作 1.需要Yarn集群 2.历史服务器 3.提交任务的的客户端工具-spark-submit命令 4.待提交的spark任务/程序的字节码--可以使用示例程序 spark-shell和spark-submit 两个命令的区别 sp 阅读全文

posted @ 2021-11-09 22:29 lmandcc 阅读(96) 评论(0) 推荐(0)

RDD的五大特性

摘要：1.分区列表（a list of partitions）。Spark RDD是被分区的，每一个分区都会被一个计算任务（Task）处理，分区数决定并行计算数量，RDD的并行度默认从父RDD传给子RDD。默认情况下，一个HDFS上的数据分片就是一个Partition，RDD分片数决定了并行计算的力度，可阅读全文

posted @ 2021-11-08 22:12 lmandcc 阅读(1032) 评论(0) 推荐(0)

Spark的安装及其配置

摘要：1.Spark下载 https://archive.apache.org/dist/spark/ 2.上传解压，配置环境变量配置bin目录解压：tar -zxvf spark-2.4.5-bin-hadoop2.7.tgz -C /usr/local/soft/ 改名：mv spark-2.4. 阅读全文

posted @ 2021-11-08 21:36 lmandcc 阅读(1446) 评论(0) 推荐(0)

lmandcc

没有情调，不懂浪漫，也许这是程序员的一面，但拥有朴实无华的爱是他们的另一面。

11 2021 档案

公告