从WordCount入门Spark Streaming

一、概述

Spark Streaming 是对Spark-core API 的一个扩展，它能够实现对实时数据流的流式处理，并具有很好的可扩展性、高吞吐量和容错性。

Spark Streaming支持多种数据输入和输出：

二、WordCont详解

import org.apache.spark.SparkConf
import org.apache.spark.streaming.{Seconds, StreamingContext}

object FileWordCount {
  def main(args: Array[String]): Unit = {
    //创建一个sparkconf对象，其中local[2]表示任务运行在本地且需要两个CUP
    val sparkconf = new SparkConf().setMaster("local[2]").setAppName("FileWordCount")
    //创建StreamingContext对象，rdd批次处理间隔设为1秒
   	val ssc = new StreamingContext(sparkconf,Seconds(5))

 	//从hdfs中读取文件，生成DStream
    val lines = ssc.textFileStream("file:///usr/local/data/test")
    //用空格分割单词并计数
    val res = lines.flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_)
    res.print()
    
    //启动spark streaming
    ssc.start()
    //等待直到任务停止
    ssc.awaitTermination()
  }
}

上面的WordCount和spark-core中的WordCount在关键代码上几乎一致，从中不难想象出spark streaming其实是用rdd来处理的。事实上也是如此：

对于流式输入的数据流（spark streaming中叫做DSteam），spark streaming接收实时输入数据流并将数据划分为一个个小的批次供 Spark Engine 处理，最终生成多个批次的结果流。

三、核心概念

（1）StreamingContext

StreamingContext是spark streaming程序的入口，每一个spark streaming程序都要使用这个对象进行初始化。

StreamingContext有2种构造函数，分别为

使用SparkContext和batch interval
使用SparkConf和batch interval

其中batch interval表示sparkstreaming接受的每一批DStream之间的时间间隔，一般用Seconds类表示

（2）DStream

离散数据流（DStream）是 Spark Streaming 最基本的抽象。它代表了一种连续的数据流，要么从某种数据源提取数据，要么从其他数据流映射转换而来。DStream 内部是由一系列连续的RDD组成。

在上面的WordCount程序中，读取hdfs上的文件生成DStream ，将 lines 这个 DStream 转成 words DStream 对象，其实作用于 lines 上的 flatMap 算子，会施加于 lines 中的每个 RDD 上，并生成新的对应的 RDD，而这些新生成的 RDD 对象就组成了 words 这个 DStream 对象。其过程如下图所示：

posted @ 2020-04-01 14:35 枫林晔雪阅读(211) 评论(0) 收藏举报

刷新页面返回顶部

枫林晔雪

永远不要停止学习的脚步

从WordCount入门Spark Streaming

一、概述

二、WordCont详解

三、核心概念

公告