再多学一点吧

导航

2021年10月8日 #

Hive数仓

摘要: 分层设计 ODS(Operational Data Store):数据运营层 “面向主题的”数据运营层,也叫ODS层,是最接近数据源中数据的一层,数据源中的数据,经过抽取、洗净、传输,也就说传说中的 ETL 之后,装入本层。本层的数据,总体上大多是按照源头业务系统的分类方式而分类的。 一般来讲,为了 阅读全文

posted @ 2021-10-08 22:56 糟糟张 阅读(171) 评论(0) 推荐(0)

Hive调优

摘要: Hive建表优化 1,分区,分桶 一般是按照业务日期进行分区 每天的数据放在一个分区里 2,一般使用外部表,避免数据误删 3,选择适当的文件储存格式及压缩格式 4,命名要规范 5,数据分层,表分离,但是也不要分的太散 Hive查询优化 分区裁剪 where过滤, 先过滤,后join 分区分桶, 合并 阅读全文

posted @ 2021-10-08 21:32 糟糟张 阅读(129) 评论(0) 推荐(0)