摘要: 概述 开窗函数的理解参见: 理解hive中的开窗函数 over()中除了可以使用partition by选择分组字段外, 还有以下函数 order by 排序 指定聚合行的范围, 配合order by使用 current row: 当前行 n PRECEDING: 往前 n 行数据 n FOLLOWING: 往后 n 行数据 UNBOUNDED PRECEDING 表示从前面的起点 UN... 阅读全文
posted @ 2020-06-25 20:59 bitbitbyte 阅读(729) 评论(0) 推荐(0)
摘要: 开窗函数简单介绍 与聚合函数一样,开窗函数也是需要对行进行分组, 然后使用聚合算子. 可是它不像普通聚合函数那样每组只返回一个值,而是每一行返回一个窗口的聚合结果. 举例说明 数据如下 hive (default)> select * from over_test; open_test.name o 阅读全文
posted @ 2020-06-25 19:02 bitbitbyte 阅读(1413) 评论(0) 推荐(0)
摘要: 端到端一致性: exactly-once传输过程要保证exactly-once, 需要内部能够实现状态保存, 当下游保存失败时, 能够更加保存的历史状态再次提交数据.而下游接受数据, 需要具备去重能力. 去重有两种方式:幂等写入, 事务写入内部: 支持checkpoint或者状态保存下一级: 数据不会被重复写入幂等写入根据key去重, 比如k-v数据库: hbase, redis事务写入能够在失败... 阅读全文
posted @ 2020-06-25 18:07 bitbitbyte 阅读(514) 评论(0) 推荐(0)
摘要: SparkSQL & Spark on Hive & Hive on SparkSpark On Hive, 将Hive做为数据库, 获得表数据后, 使用Spark SQL对表操作.Hive On Spark, 将Hive的计算引擎替换Spark RDD操作. 阅读全文
posted @ 2020-06-25 15:59 bitbitbyte 阅读(130) 评论(0) 推荐(0)
摘要: 转载: hive常用的日期函数 ## 当前日期和时间 SELECT current_timestamp(); -- 2018-04-28 11:46:03.136 ## 获取当前日期,当前是 2018-04-28 SELECT current_date; OR SELECT current_date(); -- 2018-04-28 ## 获取unix系统下的时间戳 SELECT UNIX_... 阅读全文
posted @ 2020-06-25 11:37 bitbitbyte 阅读(209) 评论(0) 推荐(0)