2018 年 4月 11 日随笔档案 - change_world

2018年4月11日

摘要：聚合函数下表为Hive内置的聚合函数。返回类型函数名描述 BIGINT count(*) count(expr) count(DISTINCT expr[, expr_.]) count(*) – 返回检索到的行的总数，包括含有NULL值的行。count(expr) – 返回expr表达式不阅读全文

posted @ 2018-04-11 20:17 change_world 阅读(4787) 评论(0) 推荐(0)

hive计算分位数

摘要： hive里面倒是有个percentile函数和percentile_approx函数，其使用方式为percentile(col, p)、percentile_approx(col, p)，p∈(0,1)p∈(0,1) 其中percentile要求输入的字段必须是int类型的，而percentile_ 阅读全文

posted @ 2018-04-11 20:16 change_world 阅读(12281) 评论(0) 推荐(0)

hive--lag和lead 分析函数

摘要： http://blog.csdn.net/mazongqiang/article/details/7621330 oracle 的分析函数是非常好的一个功能，借助它们，我们可以很方便的实现一些特殊的语句需求，省去了自己实现的诸多麻烦。今天用到了lag 和lead 这两个分析函数，稍稍整理一下。lag 阅读全文

posted @ 2018-04-11 15:01 change_world 阅读(1171) 评论(0) 推荐(0)

分区函数Partition By的与row_number()的用法以及与排序rank()的用法详解(获取分组(分区)中前几条记录)

摘要： partition by关键字是分析性函数的一部分，它和聚合函数不同的地方在于它能返回一个分组中的多条记录，而聚合函数一般只有一条反映统计值的记录，partition by用于给结果集分组，如果没有指定那么它把整个结果集作为一个分组，分区函数一般与排名函数一起使用。准备测试数据：一、分区函数Pa 阅读全文

posted @ 2018-04-11 15:00 change_world 阅读(459) 评论(0) 推荐(0)

Hive中生成随机唯一标识ID的方法

摘要： HIVE中处理的数据往往比较多，在处理数据的时候希望给处理得到的数据一个ID标识，这时候可以用到UUID。 UUID的算法的核心思想是结合机器的网卡、当地时间、一个随即数来生成UUID。从理论上讲，如果一台机器每秒产生10000000个UUID，则可以保证（概率意义上）3240年不重复。UUID 的阅读全文

posted @ 2018-04-11 14:39 change_world 阅读(12888) 评论(0) 推荐(2)

Hive实现自增列的两种方法

摘要：多维数据仓库中的维度表和事实表一般都需要有一个代理键，作为这些表的主键，代理键一般由单列的自增数字序列构成。Hive没有关系数据库中的自增列，但它也有一些对自增序列的支持，通常有两种方法生成代理键：使用row_number()窗口函数或者使用一个名为UDFRowSequence的用户自定义函数（UD 阅读全文

posted @ 2018-04-11 14:38 change_world 阅读(6277) 评论(0) 推荐(1)

一个非常有用的函数——COALESCE - CSDN博客

摘要：很多人知道ISNULL函数，但是很少人知道Coalesce函数，人们会无意中使用到Coalesce函数，并且发现它比ISNULL更加强大，其实到目前为止，这个函数的确非常有用，本文主要讲解其中的一些基本使用：首先看看联机丛书的简要定义：返回其参数中第一个非空表达式语法： COALESCE ( 阅读全文

posted @ 2018-04-11 10:12 change_world 阅读(37423) 评论(0) 推荐(0)

change_world

公告