随笔分类 -  Hive

摘要:hive. 有时候我们创表是从 as select -- -- -- 来的 , 那么很容易造成没有重命名列 , 造成列名是默认列名 _c0 , _c1 , _c2 这个时候如果想要选择这一列 , 需要 select `_c1` from table_name. (需要加``这个才能选择) 如果想要重 阅读全文
posted @ 2021-03-08 22:29 挪威森林猫Zzz 阅读(2611) 评论(0) 推荐(0)
摘要:1. hive 执行时的配置 SET mapred.reduce.tasks=20; SET hive.map.aggr=TRUE; SET hive.groupby.skewindata=TRUE; SET hive.optimize.skewjoin=TRUE; set hive.auto.co 阅读全文
posted @ 2020-09-15 01:41 挪威森林猫Zzz 阅读(123) 评论(0) 推荐(0)
摘要:create table test_set( id INT, name STRING, hobby ARRAY<STRING>, //array中元素为String类型 friend MAP<STRING,STRING>, //map中键和值均为String类型 mark struct<math:i 阅读全文
posted @ 2020-07-05 23:12 挪威森林猫Zzz 阅读(2691) 评论(1) 推荐(0)
摘要:函数 1.hive函数分类 标准函数 自定义标准函数称之为 UDF 传递一行数据,返回一个结果 聚合函数 自定义聚合函数称之为 UDAF 传递多行数据,返回一个结果 group by sum count 表生成函数 自定义表生成函数称之为 UDTF 传递一行数据,返回多行数据 explode 2.函 阅读全文
posted @ 2020-06-23 19:54 挪威森林猫Zzz 阅读(344) 评论(0) 推荐(0)
摘要:1. Hive中 null 太多会占用大量空间 , 用这个可以减少占用 alter table test_null set serdeproperties('serialization.null.format' = ''); 2. 使用 sqoop 从mysql 和HIVE的 互相导入 mysql 阅读全文
posted @ 2020-05-26 15:35 挪威森林猫Zzz 阅读(307) 评论(0) 推荐(0)
摘要:1.这是源数据以及需要转化的目标表. 我们的方法是 , 用 GROUP BY按照year分组 , 并且依次提取1月,2月,3月,4月的 num,具体实现 select year, max(case when month=1 then money else 0 end) as M1, max(case 阅读全文
posted @ 2020-05-25 15:50 挪威森林猫Zzz 阅读(2424) 评论(0) 推荐(0)
摘要:1.先过滤,再查询,因为每次生成中间表都会存储到Linux磁盘上 , 记住 , 不是HDFS 2.注意数据倾斜 , 倾斜的原因是reduce端数据的大量富集, 可适度增加reduce , 会着开启 Reduce自己判断 , 某一比较大 , 自己再分开点.也就是合理设置 reduce数量 hive.e 阅读全文
posted @ 2020-04-05 08:50 挪威森林猫Zzz 阅读(346) 评论(0) 推荐(0)