Hive - 随笔分类 - 挪威森林猫Zzz

hive 修改列名 , 选择默认列名

摘要：hive. 有时候我们创表是从 as select -- -- -- 来的 , 那么很容易造成没有重命名列 , 造成列名是默认列名 _c0 , _c1 , _c2 这个时候如果想要选择这一列 , 需要 select `_c1` from table_name. (需要加``这个才能选择) 如果想要重阅读全文

posted @ 2021-03-08 22:29 挪威森林猫Zzz 阅读(2613) 评论(0) 推荐(0)

Hive 解决数据倾斜

摘要：1. hive 执行时的配置 SET mapred.reduce.tasks=20; SET hive.map.aggr=TRUE; SET hive.groupby.skewindata=TRUE; SET hive.optimize.skewjoin=TRUE; set hive.auto.co 阅读全文

posted @ 2020-09-15 01:41 挪威森林猫Zzz 阅读(126) 评论(0) 推荐(0)

hive 建表数组,结构体, map

摘要：create table test_set( id INT, name STRING, hobby ARRAY<STRING>, //array中元素为String类型 friend MAP<STRING,STRING>, //map中键和值均为String类型 mark struct<math:i 阅读全文

posted @ 2020-07-05 23:12 挪威森林猫Zzz 阅读(2692) 评论(1) 推荐(0)

HIVE 常见函数

摘要：函数 1.hive函数分类标准函数自定义标准函数称之为 UDF 传递一行数据，返回一个结果聚合函数自定义聚合函数称之为 UDAF 传递多行数据，返回一个结果 group by sum count 表生成函数自定义表生成函数称之为 UDTF 传递一行数据，返回多行数据 explode 2.函阅读全文

posted @ 2020-06-23 19:54 挪威森林猫Zzz 阅读(345) 评论(0) 推荐(0)

Hive 常见设置

摘要：1. Hive中 null 太多会占用大量空间 , 用这个可以减少占用 alter table test_null set serdeproperties('serialization.null.format' = ''); 2. 使用 sqoop 从mysql 和HIVE的互相导入 mysql 阅读全文

posted @ 2020-05-26 15:35 挪威森林猫Zzz 阅读(309) 评论(0) 推荐(0)

Hive 窄表转宽表 , 长表转宽表

摘要：1.这是源数据以及需要转化的目标表. 我们的方法是 , 用 GROUP BY按照year分组 , 并且依次提取1月,2月,3月,4月的 num,具体实现 select year, max(case when month=1 then money else 0 end) as M1, max(case 阅读全文

posted @ 2020-05-25 15:50 挪威森林猫Zzz 阅读(2426) 评论(0) 推荐(0)

Hive查询优化

摘要：1.先过滤,再查询,因为每次生成中间表都会存储到Linux磁盘上 , 记住 , 不是HDFS 2.注意数据倾斜 , 倾斜的原因是reduce端数据的大量富集, 可适度增加reduce , 会着开启 Reduce自己判断 , 某一比较大 , 自己再分开点.也就是合理设置 reduce数量 hive.e 阅读全文

posted @ 2020-04-05 08:50 挪威森林猫Zzz 阅读(349) 评论(0) 推荐(0)

挪威森林猫

花有重开日人无再少年

随笔分类 - Hive

公告

挪威森林猫

花有重开日 人无再少年

随笔分类 - Hive

公告

花有重开日人无再少年