Spark 2.x管理与开发-Spark Streaming-Spark Streaming基础（一）Spark Streaming简介+特点+内部结构

Posted on 2020-08-06 15:44 MissRong 阅读(138) 评论(0) 收藏举报

Spark 2.x管理与开发-Spark Streaming-Spark Streaming基础（一）

Spark Streaming makes it easy to build scalable fault-tolerant streaming applications.

易于构建灵活的、高容错的流式系统。

Spark Streaming是核心Spark API的扩展，可实现可扩展、高吞吐量、可容错的实时数据流处理。

数据可以从诸如Kafka，Flume，Kinesis或TCP套接字等众多来源获取，并且可以使用由高级函数（如map，reduce，join和window）开发的复杂算法进行流数据处理。最后，处理后的数据可以被推送到文件系统，数据库和实时仪表板。

而且，您还可以在数据流上应用Spark提供的机器学习和图处理算法。

在内部，它的工作原理如下。

Spark Streaming接收实时输入数据流，并将数据切分成批，然后由Spark引擎对其进行处理，最后生成“批”形式的结果流。

Spark Streaming将连续的数据流抽象为discretizedstream或DStream。

在内部，DStream 由一个RDD序列表示。

刷新页面返回顶部