hive - 随笔分类(第2页) - dairui130

hive sql 查询一张表的数据不在另一张表中

摘要：有时，我们需要对比两张表的数据，找到在其中一张表，不在另一张表中的数据 hql 如下：阅读全文

posted @ 2019-03-18 15:26 dairui130 阅读(6512) 评论(0) 推荐(0)

hive 动态分区与混合分区

摘要：hive的分区概念，相信大家都非常了解了。通过将数据放在hdfs不同的文件目录下，查表时，只扫描对应分区下的数据，避免了全表扫描。提升了查询效率。关于hive分区，我们还会用到多级分区、动态分区、混合分区，这些概念是什么含义，又该在何时使用呢？静态分区先说下静态分区。静态分区就是人为指定分区阅读全文

posted @ 2019-03-13 10:26 dairui130 阅读(2693) 评论(0) 推荐(0)

hive 桶表

摘要：转自：https://blog.csdn.net/csdnliuxin123524/article/details/81052974 桶表(bucket table): 原理: 分区表是按照经常查询的字段做不同的分区,查询时就可以按分区进行查了.这样可以减小全局扫描提高查询的速度.分区表的缺陷就是选阅读全文

posted @ 2019-03-11 14:00 dairui130 阅读(254) 评论(0) 推荐(0)

hive中数据存储格式对比：textfile,parquent,orc,thrift,avro,protubuf

摘要：这篇文章我会从业务中关注的： 1. 存储大小 2.查询效率 3.是否支持表结构变更既数据版本变迁 5.能否避免分隔符问题 6.优势和劣势总结几方面完整的介绍下hive中数据以下几种数据格式：textfile,parquent,orc,thrift,avro,protubuf 更新中... 预计3月阅读全文

posted @ 2019-03-07 17:58 dairui130 阅读(853) 评论(1) 推荐(0)

hive 实现类似 contain 包含查询

摘要：如何用hive sql 实现 contain 查询？需求：判断某个字符串是否在另一个字符串中？方法：可以自定义函数，但是用正则匹配regexp更方便代码如下：首先，查看regexp正则函数的用法：那么用正则实现包含功能的代码是：表示 'QQqq' 匹配 '.*qq.*' 为真。QQqq 阅读全文

posted @ 2019-03-07 15:09 dairui130 阅读(26211) 评论(0) 推荐(0)

hive函数 parse_url的使用

摘要：hive提供了直接处理url的函数 parse_url desc funtion 的解释是： partToExtract的选项包含[HOST,PATH,QUERY,REF,PROTOCOL,FILE,AUTHORITY,USERINFO] 使用方法常用的参数有 "HOST" 和 "PATH" 阅读全文

posted @ 2019-03-07 14:47 dairui130 阅读(998) 评论(0) 推荐(0)

hive函数 get_json_object的使用

摘要：hive提供了json的解析函数：get_json_object 使用方法对于jsonArray（json数组），如person表的xjson字段有数据：取出第一个json对象，那么hive sql为：结果是：取出第一个json的age字段的值：结果总结 param1：需要解析的json 阅读全文

posted @ 2019-03-06 21:16 dairui130 阅读(71736) 评论(1) 推荐(5)

数据统计--union all 执行多条sql

摘要：需求--统计hive某张表type字段不同取值的数据量我们已知某张表的type的取值是1，2，3，4，5，想要统计不同type的数据量，并清晰的展现出来。可以通过union all 的方式，sql如下：得到的结果如下：阅读全文

posted @ 2019-03-05 21:07 dairui130 阅读(544) 评论(0) 推荐(0)

hive的 order by & distribute by & cluter by

摘要：我们应该都清楚order by 的含义：根据某个字段对输出的数据排序，因为只有一个reducer，所以查询效率较慢。那么hive中，另外两个排序，distribute by和cluster by的含义是什么呢？ distribute by 分区排序直接上例子，hive中有张工资表：salary 阅读全文

posted @ 2019-03-03 17:17 dairui130 阅读(326) 评论(0) 推荐(0)

dairui130

导航

公告

随笔分类 - hive