Fork me on GitHub
摘要: 一、前述 SparkSQL中的UDF相当于是1进1出,UDAF相当于是多进一出,类似于聚合函数。 开窗函数一般分组取topn时常用。 二、UDF和UDAF函数 1、UDF函数 java代码: 这些参数需要对应,UDF2就是表示传两个参数,UDF3就是传三个参数。 scala代码: 2、UDAF:用户 阅读全文
posted @ 2018-02-09 16:44 L先生AI课堂 阅读(5267) 评论(1) 推荐(0)
摘要: 一、前述 今天分享一篇SparkStreaming常用的算子transform和updateStateByKey。 可以通过transform算子,对Dstream做RDD到RDD的任意操作。其实就是DStream的类型转换。 算子内,拿到的RDD算子外,代码是在Driver端执行的,每个batch 阅读全文
posted @ 2018-02-09 16:10 L先生AI课堂 阅读(8491) 评论(0) 推荐(0)
摘要: 一、前述 SparkStreaming是流式处理框架,是Spark API的扩展,支持可扩展、高吞吐量、容错的实时数据流处理,实时数据的来源可以是:Kafka, Flume, Twitter, ZeroMQ或者TCP sockets,并且可以使用高级功能的复杂算子来处理流数据。例如:map,redu 阅读全文
posted @ 2018-02-09 14:46 L先生AI课堂 阅读(8309) 评论(0) 推荐(0)