摘要:
一、前述 SparkSQL中的UDF相当于是1进1出,UDAF相当于是多进一出,类似于聚合函数。 开窗函数一般分组取topn时常用。 二、UDF和UDAF函数 1、UDF函数 java代码: 这些参数需要对应,UDF2就是表示传两个参数,UDF3就是传三个参数。 scala代码: 2、UDAF:用户 阅读全文
posted @ 2018-02-09 16:44
L先生AI课堂
阅读(5267)
评论(1)
推荐(0)
摘要:
一、前述 今天分享一篇SparkStreaming常用的算子transform和updateStateByKey。 可以通过transform算子,对Dstream做RDD到RDD的任意操作。其实就是DStream的类型转换。 算子内,拿到的RDD算子外,代码是在Driver端执行的,每个batch 阅读全文
posted @ 2018-02-09 16:10
L先生AI课堂
阅读(8491)
评论(0)
推荐(0)
摘要:
一、前述 SparkStreaming是流式处理框架,是Spark API的扩展,支持可扩展、高吞吐量、容错的实时数据流处理,实时数据的来源可以是:Kafka, Flume, Twitter, ZeroMQ或者TCP sockets,并且可以使用高级功能的复杂算子来处理流数据。例如:map,redu 阅读全文
posted @ 2018-02-09 14:46
L先生AI课堂
阅读(8309)
评论(0)
推荐(0)


浙公网安备 33010602011771号