3.Spark设计与运行原理，基本操作

1、Spark已打造出结构一体化、功能多样化的大数据生态系统，请用图文阐述Spark生态系统的组成及各组件的功能。

1. Spark Core
Spark Core是整个BDAS的核心组件，是一种大数据分布式处理框架，不仅实现了MapReduce的算子map函数和reduce函数及计算模型，还提供如filter、join、groupByKey等更丰富的算子。
Spark将分布式数据抽象为弹性分布式数据集（RDD），实现了应用任务调度、RPC、序列化和压缩，并为运行在其上的上层组件提供API。其底层采用Scala函数式语言书写而成，并且深度借鉴Scala函数式的编程思想，提供与Scala类似的编程接口。

2. Mesos
Mesos是Apache下的开源分布式资源管理框架，被称为分布式系统的内核，提供了类似YARN的功能，实现了高效的资源任务调度。

3. Spark Streaming
Spark Streaming是一种构建在Spark上的实时计算框架，它扩展了Spark处理大规模流式数据的能力。其吞吐量能够超越现有主流流处理框架Storm，并提供丰富的API用于流数据计算。

4. MLlib
MLlib是Spark对常用的机器学习算法的实现库，同时包括相关的测试和数据生成器。MLlib目前支持4种常见的机器学习问题：二元分类、回归、聚类以及协同过滤，还包括一个底层的梯度下降优化基础算法。

5. GraphX
GraphX是Spark中用于图和图并行计算的API，可以认为是GraphLab和Pregel在Spark (Scala)上的重写及优化，与其他分布式图计算框架相比，GraphX最大的贡献是，在Spark上提供一栈式数据解决方案，可以方便、高效地完成图计算的一整套流水作业。

6. Spark SQL
Shark是构建在Spark和Hive基础之上的数据仓库。它提供了能够查询Hive中所存储数据的一套SQL接口，兼容现有的Hive QL语法。熟悉Hive QL或者SQL的用户可以基于Shark进行快速的Ad-Hoc、Reporting等类型的SQL查询。由于其底层计算采用了Spark，性能比Mapreduce的Hive普遍快2倍以上，当数据全部存储在内存时，要快10倍以上。2014年7月1日，Spark社区推出了Spark SQL，重新实现了SQL解析等原来Hive完成的工作，Spark SQL在功能上全覆盖了原有的Shark，且具备更优秀的性能。

7. Alluxio
Alluxio（原名Tachyon）是一个分布式内存文件系统，可以理解为内存中的HDFS。为了提供更高的性能，将数据存储剥离Java Heap。用户可以基于Alluxio实现RDD或者文件的跨应用共享，并提供高容错机制，保证数据的
可靠性。

8. BlinkDB
BlinkDB是一个用于在海量数据上进行交互式SQL的近似查询引擎。它允许用户在查询准确性和查询响应时间之间做出权衡，执行相似查询。

2、请详细阐述Spark的几个主要概念及相互关系

Master, Worker; RDD,DAG;

Application, job,stage,task; driver,executor,Claster Manager

DAGScheduler, TaskScheduler.

1. Master：Spark特有资源调度系统的 Leader，掌管着整个集群的资源信息，功能是监听Worker，管理 Worker、Application。

2. Worker：Spark 特有资源调度系统的 Slaver，功能是通过RegisterWorker 注册到 Master；定时发送心跳给 Master；根据 Master 发送的 Application 配置进程环境，并启动 ExecutorBackend。

3. RDD：RDD 是 Spark 对数据的核心抽象，其实就是分布式的元素集合。在 Spark 中，对数据的所有操作不外乎创建 RDD、转化已有RDD 以及调用 RDD 操作进行求值。而在这一切背后， Spark 会自动将 RDD 中的数据分发到集群上，并将操作并行化执行。

4. DAG：有向无环图，反映RDD之间的依赖关系。

5. Application：基于 Spark 构建的用户程序。

6. Job：由多个 task 组成的一个并行计算, 这些 task 产生自一个 Spark action (比如, save, collect) 操作。

7. Stage：每个 job 被分解为多个 stage, 每个 stage 其实就是一些 task 的集合, 这些 stage 之间相互依赖 (与 MapReduce 中的 map 与 reduce stage 类似)，执行过程中，每碰到一个shuffle就是一个stage。

8. Task：发送到一个 executor 的一系列工作。

9. Driver：运行 application 的 main() 函数和创建 SparkContext 的进程。

10. Executor(执行器)：执行器是一个进程（进程名: ExecutorBackend, 运行在 Worker 节点上），用来执行计算和为应用程序存储中间数据。

11. Cluster manager：获取集群资源的一个外部服务, 比如 standalone 管理器, Mesos 和 YARN。

12. DAGScheduler：根据Job构建基于Stage的DAG，并提交Stage给TaskScheduler，其划分Stage的依据是RDD之间的依赖关系。

13. TaskScheduler：将TaskSet提交给Worker（集群）运行，每个Executor运行什么Task就是在此处分配的。

3、在PySparkShell尝试以下代码，观察执行结果，理解sc,RDD,DAG。请画出相应的RDD转换关系图

>>> sc
>>> lines = sc.textFile("file:///home/hadoop/my.txt")
>>> lines
>>> words=lines.flatMap(lambda line:line.split())
>>> words
>>> wordKV=words.map(lambda word:(word,1))
>>> wordKV
>>> wc=wordKV.reduceByKey(lambda a,b:a+b)
>>> wc
>>> cs=lines.flatMap(lambda line:list(line))
>>> cs
>>> cKV=cs.map(lambda c:(c,1))
>>> cKV
>>> cc=cKV.reduceByKey(lambda a,b:a+b)
>>> cc

posted @ 2022-03-15 19:25 ^____^ 阅读(45) 评论(0) 收藏举报

刷新页面返回顶部

^____^

3.Spark设计与运行原理，基本操作

2、请详细阐述Spark的几个主要概念及相互关系

公告