dairui130

导航

随笔分类 -  hive

上一页 1 2

hive sql 查询一张表的数据不在另一张表中
摘要:有时,我们需要对比两张表的数据,找到在其中一张表,不在另一张表中的数据 hql 如下: 阅读全文

posted @ 2019-03-18 15:26 dairui130 阅读(6501) 评论(0) 推荐(0)

hive 动态分区与混合分区
摘要:hive的分区概念,相信大家都非常了解了。通过将数据放在hdfs不同的文件目录下,查表时,只扫描对应分区下的数据,避免了全表扫描。 提升了查询效率。 关于hive分区,我们还会用到多级分区、动态分区、混合分区,这些概念是什么含义,又该在何时使用呢? 静态分区 先说下静态分区。静态分区就是人为指定分区 阅读全文

posted @ 2019-03-13 10:26 dairui130 阅读(2682) 评论(0) 推荐(0)

hive 桶表
摘要:转自:https://blog.csdn.net/csdnliuxin123524/article/details/81052974 桶表(bucket table): 原理: 分区表是按照经常查询的字段做不同的分区,查询时就可以按分区进行查了.这样可以减小全局扫描提高查询的速度.分区表的缺陷就是选 阅读全文

posted @ 2019-03-11 14:00 dairui130 阅读(242) 评论(0) 推荐(0)

hive中数据存储格式对比:textfile,parquent,orc,thrift,avro,protubuf
摘要:这篇文章我会从业务中关注的: 1. 存储大小 2.查询效率 3.是否支持表结构变更既数据版本变迁 5.能否避免分隔符问题 6.优势和劣势总结 几方面完整的介绍下hive中数据以下几种数据格式:textfile,parquent,orc,thrift,avro,protubuf 更新中... 预计3月 阅读全文

posted @ 2019-03-07 17:58 dairui130 阅读(845) 评论(1) 推荐(0)

hive 实现类似 contain 包含查询
摘要:如何用hive sql 实现 contain 查询? 需求:判断某个字符串是否在另一个字符串中? 方法: 可以自定义函数,但是用正则匹配regexp更方便 代码如下: 首先,查看regexp正则函数的用法: 那么用正则实现包含功能的代码是: 表示 'QQqq' 匹配 '.*qq.*' 为真。QQqq 阅读全文

posted @ 2019-03-07 15:09 dairui130 阅读(26197) 评论(0) 推荐(0)

hive函数 parse_url的使用
摘要:hive提供了直接处理url的函数 parse_url desc funtion 的解释是: partToExtract的选项包含[HOST,PATH,QUERY,REF,PROTOCOL,FILE,AUTHORITY,USERINFO] 使用方法 常用的参数有 "HOST" 和 "PATH" 阅读全文

posted @ 2019-03-07 14:47 dairui130 阅读(982) 评论(0) 推荐(0)

hive函数 get_json_object的使用
摘要:hive提供了json的解析函数:get_json_object 使用方法 对于jsonArray(json数组),如person表的xjson字段有数据: 取出第一个json对象,那么hive sql为: 结果是: 取出第一个json的age字段的值: 结果 总结 param1:需要解析的json 阅读全文

posted @ 2019-03-06 21:16 dairui130 阅读(71678) 评论(1) 推荐(5)

数据统计--union all 执行多条sql
摘要:需求--统计hive某张表type字段不同取值的数据量 我们已知某张表的type的取值是1,2,3,4,5,想要统计不同type的数据量,并清晰的展现出来。可以通过union all 的方式,sql如下: 得到的结果如下: 阅读全文

posted @ 2019-03-05 21:07 dairui130 阅读(528) 评论(0) 推荐(0)

hive的 order by & distribute by & cluter by
摘要:我们应该都清楚order by 的含义: 根据某个字段对输出的数据排序,因为只有一个reducer,所以查询效率较慢。 那么hive中,另外两个排序,distribute by和cluster by的含义是什么呢? distribute by 分区排序 直接上例子,hive中有张工资表:salary 阅读全文

posted @ 2019-03-03 17:17 dairui130 阅读(310) 评论(0) 推荐(0)

上一页 1 2