随笔分类 -  spark-streaming

摘要:一、输入数据源 1. 文件输入数据源(FIie) file数据源提供了很多种内置的格式,如csv、parquet、orc、json等等,就以csv为例: import spark.implicits._ val userSchema = new StructType() .add("name", " 阅读全文
posted @ 2020-04-22 18:12 吊车尾88 阅读(2052) 评论(1) 推荐(1)
摘要:窗口函数,就是在DStream流上,以一个可配置的长度为窗口,以一个可配置的速率向前移动窗口,根据窗口函数的具体内容,分别对当前窗口中的这一波数据采取某个对应的操作算子。 需要注意的是窗口长度,和窗口移动速率需要是batch time的整数倍。 1.window(windowLength, slid 阅读全文
posted @ 2020-04-10 17:42 吊车尾88 阅读(1836) 评论(0) 推荐(0)
摘要:状态管理函数 Spark Streaming中状态管理函数包括updateStateByKey和mapWithState,都是用来统计全局key的状态的变化的。它们以DStream中的数据进行按key做reduce操作,然后对各个批次的数据进行累加,在有新的数据信息进入或更新时。能够让用户保持想要的 阅读全文
posted @ 2020-04-10 16:09 吊车尾88 阅读(1720) 评论(0) 推荐(0)
摘要:1.1 map(fun) 操作 map操作需要传入一个函数当做参数, 主要作用是,对DStream对象a,将func函数作用到a中的每一个元素上并生成新的元素,得到的DStream对象b中包含这些新的元素。 val conf = new SparkConf().setMaster("local[2] 阅读全文
posted @ 2020-04-10 11:37 吊车尾88 阅读(597) 评论(0) 推荐(0)