随笔分类 - hive
摘要:1、查看hive表对应的HDFS文件存储路径 hive>show create table tableName; -- 此命令查看建表的最详细信息 2、hive命令行中查看HDFS目录信息 hive>dfs -ls /;
阅读全文
摘要:1、分区与分桶的区别 2、hive建表demo create table test11(`id` string comment '唯一',`time` timestamp comment '时间')comment '测试表'partitioned by (dt string comment '分区'
阅读全文
摘要:https://www.pianshen.com/article/34572045595/ ORC、Parquet都是列式存储 Orc (Optimized Row Columnar)是Hive 0.11版里引入的新的存储格式 每个Orc文件由1个或多个stripe组成,每个stripe一般为HDF
阅读全文
摘要:-- 数仓 1、事实表有哪些?如何理解? 事务型事实表 周期型快照事实表 累积型快照事实表 1、hive 中有哪些文件存储格式,区别? textfile(默认) parquet(列式存储,以二进制方式存储) orc(列式存储,以二进制方式存储) -- ORC常用于Hive、Presto;Parque
阅读全文
摘要:1、行列转换 行转列:collect_set/collect_list 列转行: select t1.*, t2.col3_newfrom (select 'a' as col1, 'b' as col2, '1,2,3' as col3union allselect 'c' as col1, 'd
阅读全文
摘要:总说:笼统地看,这四个在hive中都有排序和聚集的作用,然而,它们在执行时所启动的MR却各不相同。 细讲:order by: order by会对所给的全部数据进行全局排序,并且只会“叫醒”一个reducer干活。它就像一个糊涂蛋一样,不管来多少数据,都只启动一个reducer来处理。因此,数据量小
阅读全文
摘要:https://www.cnblogs.com/raymoc/p/5323824.html 大表对小表应该使用MapJoin ,set hive.auto.convert.join=true;让hive自动识别,把join变成合适的Map Join 大表对大表 set hive.auto.conve
阅读全文

浙公网安备 33010602011771号