Spark 2.x管理与开发-Spark Streaming-Spark Streaming进阶(二)离散流(DStreams):Discretized Streams

把连续的数据流变成不连续的RDD

本质上Spark Streaming依然是离线计算

DStream是RDD的集合,包含不连续的RDD。

表现形式依然是RDD。

操作DStream和RDD是一样的。

 

DiscretizedStream或DStream 是Spark Streaming对流式数据的基本抽象。

它表示连续的数据流,这些连续的数据流可以是从数据源接收的输入数据流,也可以是通过对输入数据流执行转换操作而生成的经处理的数据流。

在内部,DStream由一系列连续的RDD表示,如下图:

举例分析:

在之前的NetworkWordCount的例子中,我们将一行行文本组成的流转换为单词流,

具体做法为:将flatMap操作应用于名为lines DStream中的每个RDD上,以生成words DStream的RDD。如下图所示:

 

但是DStream和RDD也有区别,下面画图说明:

 

 

 

 

博客园  ©  2004-2025
浙公网安备 33010602011771号 浙ICP备2021040463号-3