3.Spark设计与运行原理，基本操作

一.Spark已打造出结构一体化、功能多样化的大数据生态系统，请用图文阐述Spark生态系统的组成及各组件的功能。

组件介绍

1. Spark Core：Spark核心组件，它实现了Spark的基本功能，包含任务调度、内存管理、错误恢复、与存储系统交互等模块。Spark Core中还包含了对弹性分布式数据集(Resilient Distributed Datasets,RDD)的API定义，RDD是只读的分区记录的集合，只能基于在稳定物理存储中的数据集和其他已有的RDD上执行确定性操作来创建。

2 . Spark Streaming：Spark生态系统中的流式计算框架，其操作的数据对象是DStream，其实Spark Streaming是将流式计算分解成一系列短小的批处理作业。

3. Spark SQL:用来操作结构化数据的核心组件,通过Spark SQL可以直接查询Hive、 HBase等多种外部数据源中的数据。

4 . Spark Graphx：Spark生态系统中的图计算和并行图计算，目前较新版本已支持PageRank、数三角形、最大连通图和最短路径等6种经典的图算法

5 . Spark Mlib：一个可扩展的Spark机器学习库，里面封装了很多通用的算法，包括二元分类、线性回归、聚类、协同过滤等。用于机器学习和统计等场景

6. 独立调度器、Yarn、 Mesos: Spark框架可以高效地在一个到数千个节点之间伸缩计算，集群管理器则主要负责各个节点的资源管理工作，为了实现这样的要求，同时获得最大的灵活性， Spark支持在各种集群管理器( Cluster Manager)上运行， Hadoop Yarn、Apache Mesos以及 Spark自带的独立调度器都被称为集群管理器。

7 . Tachyon：Tachyon是一个分布式内存文件系统，可以理解为内存中的HDFS

二.请详细阐述Spark的几个主要概念及相互关系：

Master, Worker; RDD,DAG; Application, job,stage,task; driver,executor,Claster Manager

DAGScheduler, TaskScheduler.

三.在PySparkShell尝试以下代码，观察执行结果，理解sc,RDD,DAG。请画出相应的RDD转换关系图。

posted @ 2022-03-09 11:02 孜然猪扒阅读(85) 评论(0) 收藏举报

刷新页面返回顶部

3.Spark设计与运行原理，基本操作

公告