2024/2/16学习进度笔记

Spark Streaming 支持的数据输入源很多,例如:Kafka、 Flume、Twitter、ZeroMQ 和简单的 TCP 套接字等等。数据输入后可以用 Spark 的高度抽象原语如:map、reduce、join、window 等进行运算。而结果也能保存在很多地方,如HDFS,数据库等。另外Spark Streaming 也能和 MLlib(机器学习)以及 Graphx 完美融合。

流数据特点:

  • 数据一直在变化
  • 数据无法回退
  • 数据始终源源不断涌进

 

DStream

和 Spark 基于 RDD 的概念很相似,Spark Streaming 使用离散化流(discretized stream)作为抽象表示,叫作DStream。DStream 是随时间推移而收到的数据的序列。在内部,每个时间区间收到的数据都作为 RDD 存在,而DStream 是由这些RDD 所组成的序列(因此得名“离散化”)。

DStream形成步骤:

  1. 针对某个时间段切分的小数据块进行RDD DAG构建;
  2. 连续时间内产生的一连串小的数据进行切片处理分别构建RDD DAG,形成DStream;

定义一个RDD处理逻辑,数据按照时间切片,每次流入的数据都不一样,但是RDD的DAG逻辑是一样的,即按照时间划分成一个个batch,用同一个逻辑处理。

posted @ 2024-02-16 23:20  努力学习2333  阅读(47)  评论(0)    收藏  举报