3.Spark设计与运行原理，基本操作

1.Spark已打造出结构一体化、功能多样化的大数据生态系统，请用图文阐述Spark生态系统的组成及各组件的功能。

Spark的生态系统主要包含如下：

Spark Core：Spark Core包含Spark最基础和最核心的功能，如内存计算、任务调度、部署模式、故障恢复、存储管理等，主要面向批数据处理。

Spark SQL：Spark SQL是用于结构化数据处理的组件，允许开发人员直接处理RDD，同时也可查询Hive，HBase等外部数据源。

MLlib：MLlib提供了常用机器学习算法的实现，包括聚类、分类、回归、协同过滤等，降低了机器学习的门槛，开发人员只需具备一定的理论知识就能进行机器学习的工作。

GraphX：GraphX是Spark中用于图计算的API，可认为是Pregel在Spark上的重写和优化，GraphX性能良好，拥有丰富的功能和运算符，能在海量数据上自如地运行复杂的图算法。

Spark Streaming：Spark Streaming是一种流计算框架，可以支持高吞吐量、可容错处理的实时流数据处理，其核心思路是将流数据分解成一系列短小的批处理作业，每个短小的批处理作业都可以使用Spark Core进行快速处理。

Structrued Streaming：Structured Streaming是一种基于Spark SQL引擎构建的、可扩展且容错的流处理引擎。

2.请详细阐述Spark的几个主要概念及相互关系：

Master, Worker; RDD,DAG;

Application, job,stage,task; driver,executor,Claster Manager

DAGScheduler, TaskScheduler.

1、master：常驻master守护进程，负责管理worker节点，我们从master节点提交应用。

2、Worker：集群中可以运行Application代码的节点。在Standalone模式中指的是通过slave文件配置的worker节点，在Spark on Yarn模式中指的就是NodeManager节点。

3、RDD：它是Spark中最重要的一个概念，是弹性分布式数据集，是一种容错的、可以被并行操作的元素集合，是Spark对所有数据处理的一种基本抽象。可以通过一系列的算子对rdd进行操作，主要分为Transformation和Action两种操作。

4、DAG：有向无环图，反映RDD之间的依赖关系

5、Application：表示你的应用程序

6、Job：包含多个Task组成的并行计算，是由Action行为触发的

7、Stage：每个Job会被拆分很多组Task，作为一个TaskSet，其名称为Stage

8、Task：在Executor进程中执行任务的工作单元，多个Task组成一个Stage

9、Driver：表示main()函数，创建SparkContext。由SparkContext负责与ClusterManager通信，进行资源的申请，任务的分配和监控等。程序执行完毕后关闭SparkContext

10、Executor：某个Application运行在Worker节点上的一个进程，该进程负责运行某些task，并且负责将数据存在内存或者磁盘上。在Spark on Yarn模式下，其进程名称为 CoarseGrainedExecutor Backend，一个CoarseGrainedExecutor Backend进程有且仅有一个executor对象，它负责将Task包装成taskRunner，并从线程池中抽取出一个空闲线程运行Task，这样，每个CoarseGrainedExecutorBackend能并行运行Task的数据就取决于分配给它的CPU的个数。

11、Cluster Manager：集群资源管理中心，负责分配计算资源

12、DAGScheduler：根据Job构建基于Stage的DAG，并提交Stage给TaskScheduler，其划分Stage的依据是RDD之间的依赖关系

13、TaskScheduler：将TaskSet提交给Worker（集群）运行，每个Executor运行什么Task就是在此处分配的。

3.在PySparkShell尝试以下代码，观察执行结果，理解sc,RDD,DAG。请画出相应的RDD转换关系图。

posted on 2022-03-15 20:47 yyyy/\ 阅读(31) 评论(0) 收藏举报