随笔分类 -  hive

摘要:1、查看hive表对应的HDFS文件存储路径 hive>show create table tableName; -- 此命令查看建表的最详细信息 2、hive命令行中查看HDFS目录信息 hive>dfs -ls /; 阅读全文
posted @ 2021-05-08 15:31 再见傅里叶 阅读(58) 评论(0) 推荐(0)
摘要:1、分区与分桶的区别 2、hive建表demo create table test11(`id` string comment '唯一',`time` timestamp comment '时间')comment '测试表'partitioned by (dt string comment '分区' 阅读全文
posted @ 2021-05-08 15:28 再见傅里叶 阅读(254) 评论(0) 推荐(0)
摘要:https://www.pianshen.com/article/34572045595/ ORC、Parquet都是列式存储 Orc (Optimized Row Columnar)是Hive 0.11版里引入的新的存储格式 每个Orc文件由1个或多个stripe组成,每个stripe一般为HDF 阅读全文
posted @ 2021-04-29 17:48 再见傅里叶 阅读(1747) 评论(0) 推荐(0)
摘要:-- 数仓 1、事实表有哪些?如何理解? 事务型事实表 周期型快照事实表 累积型快照事实表 1、hive 中有哪些文件存储格式,区别? textfile(默认) parquet(列式存储,以二进制方式存储) orc(列式存储,以二进制方式存储) -- ORC常用于Hive、Presto;Parque 阅读全文
posted @ 2021-04-25 15:00 再见傅里叶 阅读(70) 评论(0) 推荐(0)
摘要:1、行列转换 行转列:collect_set/collect_list 列转行: select t1.*, t2.col3_newfrom (select 'a' as col1, 'b' as col2, '1,2,3' as col3union allselect 'c' as col1, 'd 阅读全文
posted @ 2021-04-06 10:35 再见傅里叶 阅读(103) 评论(0) 推荐(0)
摘要:总说:笼统地看,这四个在hive中都有排序和聚集的作用,然而,它们在执行时所启动的MR却各不相同。 细讲:order by: order by会对所给的全部数据进行全局排序,并且只会“叫醒”一个reducer干活。它就像一个糊涂蛋一样,不管来多少数据,都只启动一个reducer来处理。因此,数据量小 阅读全文
posted @ 2020-04-07 13:48 再见傅里叶 阅读(674) 评论(0) 推荐(0)
摘要:https://www.cnblogs.com/raymoc/p/5323824.html 大表对小表应该使用MapJoin ,set hive.auto.convert.join=true;让hive自动识别,把join变成合适的Map Join 大表对大表 set hive.auto.conve 阅读全文
posted @ 2020-02-23 18:47 再见傅里叶 阅读(342) 评论(0) 推荐(0)