hive - 随笔分类 - 再见傅里叶

摘要：1、查看hive表对应的HDFS文件存储路径 hive>show create table tableName; -- 此命令查看建表的最详细信息 2、hive命令行中查看HDFS目录信息 hive>dfs -ls /; 阅读全文

posted @ 2021-05-08 15:31 再见傅里叶阅读(58) 评论(0) 推荐(0)

摘要：1、分区与分桶的区别 2、hive建表demo create table test11(`id` string comment '唯一',`time` timestamp comment '时间')comment '测试表'partitioned by (dt string comment '分区' 阅读全文

posted @ 2021-05-08 15:28 再见傅里叶阅读(254) 评论(0) 推荐(0)

Hive中文件存储格式ORC与Parquet对比

摘要：https://www.pianshen.com/article/34572045595/ ORC、Parquet都是列式存储 Orc (Optimized Row Columnar)是Hive 0.11版里引入的新的存储格式每个Orc文件由1个或多个stripe组成，每个stripe一般为HDF 阅读全文

posted @ 2021-04-29 17:48 再见傅里叶阅读(1747) 评论(0) 推荐(0)

20210423面试题

摘要：-- 数仓 1、事实表有哪些？如何理解？事务型事实表周期型快照事实表累积型快照事实表 1、hive 中有哪些文件存储格式，区别？ textfile（默认） parquet(列式存储，以二进制方式存储) orc(列式存储，以二进制方式存储) -- ORC常用于Hive、Presto；Parque 阅读全文

posted @ 2021-04-25 15:00 再见傅里叶阅读(70) 评论(0) 推荐(0)

Hive常见面试题

摘要：1、行列转换行转列:collect_set/collect_list 列转行： select t1.*, t2.col3_newfrom (select 'a' as col1, 'b' as col2, '1,2,3' as col3union allselect 'c' as col1, 'd 阅读全文

posted @ 2021-04-06 10:35 再见傅里叶阅读(103) 评论(0) 推荐(0)

hive中order by ，sort by ，distribute by 和 cluster by

摘要：总说：笼统地看，这四个在hive中都有排序和聚集的作用，然而，它们在执行时所启动的MR却各不相同。细讲：order by： order by会对所给的全部数据进行全局排序，并且只会“叫醒”一个reducer干活。它就像一个糊涂蛋一样，不管来多少数据，都只启动一个reducer来处理。因此，数据量小阅读全文

posted @ 2020-04-07 13:48 再见傅里叶阅读(674) 评论(0) 推荐(0)

Hive关联

摘要：https://www.cnblogs.com/raymoc/p/5323824.html 大表对小表应该使用MapJoin ,set hive.auto.convert.join=true;让hive自动识别，把join变成合适的Map Join 大表对大表 set hive.auto.conve 阅读全文

posted @ 2020-02-23 18:47 再见傅里叶阅读(342) 评论(0) 推荐(0)

再见傅里叶

随笔分类 - hive

公告