鼬手牵佐手

2020年7月28日

Hive 窗口函数详细介绍3 lag，lead，first_value，last_value

摘要：这篇文章继续介绍4个窗口函数。 lag lag(column_name,n,default):用于统计窗口内往上第n行的值，第一个参数为列名，第二个参数为往上第n行（可选，默认为1），第三个参数为默认值（当往上n行为null时，取默认值，若不指定，则为null） lead lead与lag想法，le 阅读全文

posted @ 2020-07-28 17:42 鼬手牵佐手阅读(2537) 评论(1) 推荐(0)

Kafka 消费者API

摘要：由于Kafka在消费过程中有可能会遇到断电宕机等故障，Consumer恢复后，需要从上次消费结束的地方接着消费，因此Kafka需要时刻记录Consumer消费到哪个offset，以便故障恢复后接着消费。 Kafka提供两种方法用来维护offset，一种是自动提交，还有一种是手动提交。 1. 在自动消阅读全文

posted @ 2020-07-28 00:12 鼬手牵佐手阅读(281) 评论(0) 推荐(0)

2020年7月27日

Hive窗口函数详细介绍2，rank()，dense_rank() ,row_number()

摘要：在hive中，有三种窗口函数，rank(),dense_rank() 和row_number() 可以在窗口内实现对数据的排序。现在主要介绍这三个窗口函数的区别 1.rank() ：生成数据项在分组内的排名，排名相等时会在名次中留下空位。 2. dense_rank() ：生成数据项在分组内的排名, 阅读全文

posted @ 2020-07-27 17:16 鼬手牵佐手阅读(958) 评论(0) 推荐(0)

2020年7月26日

spark on hive 配置

摘要： hive底层使用的是MapReduce，我们都知道，相比于mapreduce，spark要快的多，spark sql 可以对接hive，读取hive中的数据，并且利用spark 计算引擎完成计算。要实现spark sql 处理hive中的数据，最关键的就是要spark获取hive表的元数据信息。阅读全文

posted @ 2020-07-26 22:50 鼬手牵佐手阅读(805) 评论(0) 推荐(0)

Hive窗口函数详细介绍1

摘要：在hive中，窗口函数（又叫开窗函数）具有强大的功能，掌握好窗口函数，能够帮助我们非常方便的解决很多问题。首先我们要了解什么是窗口函数，简单的说窗口函数是hive中一种可以按指定窗口大小计算的函数，例如，sum()，avg()，min()，max()等聚合函数，还有rank()，row_number 阅读全文

posted @ 2020-07-26 22:19 鼬手牵佐手阅读(1260) 评论(0) 推荐(0)

2020年7月19日

HBase HMaster 启动成功，但是RegionServer没有启动成功解决办法

摘要： HBase启动后，用jps命令查看进程，发现只有HMaster启动成功，RegionServer没有启动成功，切换到Hbase下的log目录查看RegionServer的日志，发现报如下错误信息。用date命令查看了一下系统时间，发现datanode节点时间已经同步。发现，原来是安装Hbase的时阅读全文

posted @ 2020-07-19 18:37 鼬手牵佐手阅读(2678) 评论(0) 推荐(1)

公告