Spark（一）

大数据追求相关性，不追求因果性。

一、Spark目的

map reuce:先写入磁盘，再从网络读取磁盘数据，mapreduce只适合处理对速度不敏感的离线批量处理。

spark：在一个物理节点，用内存完成各种各样的计算。（有时也用磁盘）

storm：流式，纯粹实时计算框架，吞吐量不高，每条数据过来直接处理这样每次传输校验通信。

sparkstreaming ：分布式，准实时框架，把例如秒里的数据都成绩，然后一次性作为batch计算，吞吐量远高于storm。

二、sprk基本工作原理

从hadoop里的hive等读取数据------分布式的放到多个节点上（内存上）----处理好的数据可能移动到其他节点的内存-----迭代式计算（计算操作多个节点并行计算操作）----放入hive，mysql。

PS：mapreduce于spark最大不同在于迭代式计算，map+Reduce就结束了，sprak可以分为n个阶段，因为他是迭代式的。

三、RDD：核心抽象

一个RDD在抽象上代表一个hdfs文件，

分布式数据集：元素集合包含数据，实际上是被分区的，分为多个分区散落在spark集群中的不同节点（一批节点上的一批数据就是RDD）。

最重要特性：提供了容错性，节点失败中自动恢复。默认放在内存，内存不够，被写入磁盘。

四、架构

Spark核心编程：1）定义初始RDD，从哪里读取数据2）定义对RDD的计算操作（算子）

3）循环往复的过程

Spark架构

Driver：编写的spark程序就再driver上，节点之一（进程）

Master：资源调度和分配，集群监控

worker：用自己内存存储RDD的某个或某些partition

Executor：进程

task：线程，启动在executor上（e和t对partitioon进行并行计算，也执行我们定义的map，flatmap等算子操作）

SPRK基本运行架构：

1）driver进程启动，初始化操作，发送请求到master进行注册

2）master接受spark注册申请，发送请求给worker，进行executor调度分配

3）worker接收到请求，启动executor

4）master接受到申请向driver进行反注册，driver就知道哪些executor为它服务

5）注册executor后，正式执行spark程序（创建RDD，读取数据源）

6）hdfs文件被读取到多个worker，也就是初始rdd

6）driver根据rdd定义提交task去executor

7）executor接受task后，启动多个线程执行task

8）task 对rdd的partition数据进行算子操作形成新的RDDpartition

posted @ 2019-08-16 18:11 Languid 阅读(209) 评论(0) 收藏举报

刷新页面返回顶部

Languid