摘要: 这篇文章继续介绍4个窗口函数。 lag lag(column_name,n,default):用于统计窗口内往上第n行的值,第一个参数为列名,第二个参数为往上第n行(可选,默认为1),第三个参数为默认值(当往上n行为null时,取默认值,若不指定,则为null) lead lead与lag想法,le 阅读全文
posted @ 2020-07-28 17:42 鼬手牵佐手 阅读(2508) 评论(1) 推荐(0)
摘要: 由于Kafka在消费过程中有可能会遇到断电宕机等故障,Consumer恢复后,需要从上次消费结束的地方接着消费,因此Kafka需要时刻记录Consumer消费到哪个offset,以便故障恢复后接着消费。 Kafka提供两种方法用来维护offset,一种是自动提交,还有一种是手动提交。 1. 在自动消 阅读全文
posted @ 2020-07-28 00:12 鼬手牵佐手 阅读(274) 评论(0) 推荐(0)
摘要: 在hive中,有三种窗口函数,rank(),dense_rank() 和row_number() 可以在窗口内实现对数据的排序。现在主要介绍这三个窗口函数的区别 1.rank() :生成数据项在分组内的排名,排名相等时会在名次中留下空位。 2. dense_rank() :生成数据项在分组内的排名, 阅读全文
posted @ 2020-07-27 17:16 鼬手牵佐手 阅读(914) 评论(0) 推荐(0)
摘要: hive底层使用的是MapReduce,我们都知道,相比于mapreduce,spark要快的多,spark sql 可以对接hive,读取hive中的数据,并且利用spark 计算引擎完成计算。 要实现spark sql 处理hive中的数据,最关键的就是要spark获取hive表的元数据信息。 阅读全文
posted @ 2020-07-26 22:50 鼬手牵佐手 阅读(791) 评论(0) 推荐(0)
摘要: 在hive中,窗口函数(又叫开窗函数)具有强大的功能,掌握好窗口函数,能够帮助我们非常方便的解决很多问题。首先我们要了解什么是窗口函数,简单的说窗口函数是hive中一种可以按指定窗口大小计算的函数,例如,sum(),avg(),min(),max()等聚合函数,还有rank(),row_number 阅读全文
posted @ 2020-07-26 22:19 鼬手牵佐手 阅读(1242) 评论(0) 推荐(0)
摘要: HBase启动后,用jps命令查看进程,发现只有HMaster启动成功,RegionServer没有启动成功,切换到Hbase下的log目录查看RegionServer的日志,发现报如下错误信息。用date命令查看了一下系统时间,发现datanode节点时间已经同步。 发现,原来是安装Hbase的时 阅读全文
posted @ 2020-07-19 18:37 鼬手牵佐手 阅读(2611) 评论(0) 推荐(1)