1、简介

集群架构

Term（术语）	Meaning（含义）
Application	Spark 应用程序，由集群上的一个 Driver 节点和多个 Executor 节点组成。
Driver program	主运用程序，该进程运行应用的 main() 方法并且创建 SparkContext
Cluster manager	集群资源管理器（例如，Standlone Manager，Mesos，YARN）
Worker node	执行计算任务的工作节点
Executor	位于工作节点上的应用进程，负责执行计算任务并且将输出数据保存到内存或者磁盘中
Task	被发送到 Executor 中的工作单元

执行过程：

用户程序创建 SparkContext 后，它会连接到集群资源管理器，集群资源管理器会为用户程序分配计算资源，并启动 Executor；
Driver 将计算程序划分为不同的执行阶段和多个 Task，之后将 Task 发送给 Executor；
Executor 负责执行 Task，并将执行状态汇报给 Driver，同时也会将当前节点资源的使用情况汇报给集群资源管理器。

核心组件

Spark SQL

　　Spark SQL 主要用于结构化数据的处理。其具有以下特点：

能够将 SQL 查询与 Spark 程序无缝混合，允许您使用 SQL 或 DataFrame API 对结构化数据进行查询；
支持多种数据源，包括 Hive，Avro，Parquet，ORC，JSON 和 JDBC；
支持 HiveQL 语法以及用户自定义函数 (UDF)，允许你访问现有的 Hive 仓库；
支持标准的 JDBC 和 ODBC 连接；
支持优化器，列式存储和代码生成等特性，以提高查询效率。

Spark Streaming

　　Spark Streaming 主要用于快速构建可扩展，高吞吐量，高容错的流处理程序。支持从 HDFS，Flume，Kafka，Twitter 和 ZeroMQ 读取数据，并进行处理。

Spark Streaming 的本质是微批处理，将数据流进行极小粒度的拆分，拆分为多个批处理，从而达到接近于流处理的效果。

MLlib

　　MLlib 是 Spark 的机器学习库。其设计目标是使得机器学习变得简单且可扩展。提供了以下工具：

常见的机器学习算法：如分类，回归，聚类和协同过滤；
特征化：特征提取，转换，降维和选择；
管道：用于构建，评估和调整 ML 管道的工具；
持久性：保存和加载算法，模型，管道数据；
实用工具：线性代数，统计，数据处理等。

Graphx

　　GraphX 是 Spark 中用于图形计算和图形并行计算的新组件。在高层次上，GraphX 通过引入一个新的图形抽象来扩展 RDD(一种具有附加到每个顶点和边缘的属性的定向多重图形)。为了支持图计算，GraphX 提供了一组基本运算符（如： subgraph，joinVertices 和 aggregateMessages）以及优化后的 Pregel API。此外，GraphX 还包括越来越多的图形算法和构建器，以简化图形分析任务。

posted on 2021-09-23 23:42 溪水静幽阅读(39) 评论(0) 收藏举报