上一页 1 2 3 4 5 6 ··· 10 下一页
摘要: 1、print() print操作会将DStream每一个batch中的前10个元素在driver节点打印出来。 ssc.textFileStream("file:\\D:\\workspace\\idea\\silent\\src\\main\\resources\\stream") .map(( 阅读全文
posted @ 2020-04-10 18:19 吊车尾88 阅读(720) 评论(0) 推荐(0)
摘要: 窗口函数,就是在DStream流上,以一个可配置的长度为窗口,以一个可配置的速率向前移动窗口,根据窗口函数的具体内容,分别对当前窗口中的这一波数据采取某个对应的操作算子。 需要注意的是窗口长度,和窗口移动速率需要是batch time的整数倍。 1.window(windowLength, slid 阅读全文
posted @ 2020-04-10 17:42 吊车尾88 阅读(1841) 评论(0) 推荐(0)
摘要: 状态管理函数 Spark Streaming中状态管理函数包括updateStateByKey和mapWithState,都是用来统计全局key的状态的变化的。它们以DStream中的数据进行按key做reduce操作,然后对各个批次的数据进行累加,在有新的数据信息进入或更新时。能够让用户保持想要的 阅读全文
posted @ 2020-04-10 16:09 吊车尾88 阅读(1723) 评论(0) 推荐(0)
摘要: 1.1 map(fun) 操作 map操作需要传入一个函数当做参数, 主要作用是,对DStream对象a,将func函数作用到a中的每一个元素上并生成新的元素,得到的DStream对象b中包含这些新的元素。 val conf = new SparkConf().setMaster("local[2] 阅读全文
posted @ 2020-04-10 11:37 吊车尾88 阅读(599) 评论(0) 推荐(0)
摘要: 用法示例 jstat -[options] [pid] 1000 10 (每隔1秒监控一次,输出10次) 平时生产上比较常用的主要是关注下gc/gcutil jstat -gc [pid] 1000 10 jstat -gcutil [pid] 1000 10 参数详解 1. gc 统计jdk gc 阅读全文
posted @ 2020-04-06 23:06 吊车尾88 阅读(239) 评论(0) 推荐(0)
摘要: 简介 jps 命令类似与 linux 的 ps 命令,但是它只列出系统中所有的 Java 应用程序。 通过 jps 命令可以方便地查看 Java 进程的启动类、传入参数和 Java 虚拟机参数等信息。 jps用法 参数说明 -q 只输出进程 ID -m 输出传入 main 方法的参数 -l 输出完全 阅读全文
posted @ 2020-04-06 23:02 吊车尾88 阅读(725) 评论(0) 推荐(0)
摘要: 1. def cume_dist(): Column –CUME_DIST 小于等于当前值的行数/分组内总行数–比如,统计小于等于当前薪水的人数,所占总人数的比例 d1,user1,1000 d1,user2,2000 d1,user3,3000 d2,user4,4000 d2,user5,500 阅读全文
posted @ 2020-04-06 17:00 吊车尾88 阅读(617) 评论(0) 推荐(0)
摘要: 方案一:使用functions里面的monotonically_increasing_id(),生成单调递增,不保证连续,最大64bit,的一列.分区数不变。 import org.apache.spark.sql.functions._ val df1 = spark.range(0,1000). 阅读全文
posted @ 2020-04-03 17:41 吊车尾88 阅读(2647) 评论(0) 推荐(0)
摘要: Date time functions 默认数据格式为yyyy-MM-dd格式 DataFrame数据 val df = Seq( ("A", "2019-01-10", "2019-05-02"), ("B", "2019-01-01", "2019-02-04"), ("D", "2019-01 阅读全文
posted @ 2020-04-01 09:31 吊车尾88 阅读(696) 评论(0) 推荐(0)
摘要: repartitionAndSortWithinPartitions是Spark官网推荐的一个算子,官方建议,如果需要在repartition重分区之后,还要进行sort 排序,建议直接使用repartitionAndSortWithinPartitions算子。因为该算子可以一边进行重分区的shu 阅读全文
posted @ 2020-03-23 17:51 吊车尾88 阅读(2380) 评论(0) 推荐(0)
上一页 1 2 3 4 5 6 ··· 10 下一页