随笔分类 -  数据库学习 / HIVE

大数据数据倾斜的原因及解决办法
摘要:大数据数据倾斜的原因及解决办法 一、什么是数据倾斜 数据倾斜是指在分布式处理中,数据分布不均匀,有部分数据比较集中。数据倾斜会使得在处理过程中,某个节点的处理效率过低,甚至造成内存溢出。比如有1亿条性别数据,其中性别为男的数据有9900w,性别为女的有100w,处理的时候分到不同节点就容易造成数据倾 阅读全文

posted @ 2023-08-10 15:10 一只小白two 阅读(1717) 评论(0) 推荐(0)

Hive的分区、分桶
摘要:Hive的分区表、分桶表 一、 Hive库的分区表 1.1概述 Hive 中的表对应为 HDFS 上的指定目录,在查询数据时候,默认会对全表进行扫描,这样时间和性能的消耗都非常大。 分区为 HDFS 上表目录的子目录,数据按照分区存储在子目录中。如果查询的 where 字句的中包含分区条件,则直接从 阅读全文

posted @ 2023-05-29 10:04 一只小白two 阅读(1429) 评论(0) 推荐(0)

Hive元数据信息表
摘要:--Hive元数据表 1.表信息 (1)TBLS--记录数据表信息,可作为左表,关联其他表信息 (2)TABLE_PARAMS—存储Hive表的属性信息 具体数据内容: (3)COLUMNS_V2—保存表的字段信息 2.分区信息 (1)PARTITIONS (2)PARTITIONS_PARAMS— 阅读全文

posted @ 2023-04-12 14:19 一只小白two 阅读(499) 评论(0) 推荐(0)

Hive的SQL优化
摘要:--HiveSQL优化 1.查看执行计划 --基本信息 explain select * from part1 where id<10; --显示输入属性 explain dependency --查看SQL相关权限信息 explain authorization --查看SQL向量化描述信息,显示 阅读全文

posted @ 2023-04-11 17:13 一只小白two 阅读(206) 评论(0) 推荐(0)