Spark 2.x管理与开发-Spark Streaming-Spark Streaming进阶(二)离散流(DStreams):Discretized Streams
Posted on 2020-08-06 16:35 MissRong 阅读(100) 评论(0) 收藏 举报Spark 2.x管理与开发-Spark Streaming-Spark Streaming进阶(二)离散流(DStreams):Discretized Streams
把连续的数据流变成不连续的RDD
本质上Spark Streaming依然是离线计算
DStream是RDD的集合,包含不连续的RDD。
表现形式依然是RDD。
操作DStream和RDD是一样的。

DiscretizedStream或DStream 是Spark Streaming对流式数据的基本抽象。
它表示连续的数据流,这些连续的数据流可以是从数据源接收的输入数据流,也可以是通过对输入数据流执行转换操作而生成的经处理的数据流。
在内部,DStream由一系列连续的RDD表示,如下图:

举例分析:
在之前的NetworkWordCount的例子中,我们将一行行文本组成的流转换为单词流,
具体做法为:将flatMap操作应用于名为lines DStream中的每个RDD上,以生成words DStream的RDD。如下图所示:

但是DStream和RDD也有区别,下面画图说明:


浙公网安备 33010602011771号