HIVE - 随笔分类 - 一只小白two

大数据数据倾斜的原因及解决办法

摘要：大数据数据倾斜的原因及解决办法一、什么是数据倾斜数据倾斜是指在分布式处理中，数据分布不均匀，有部分数据比较集中。数据倾斜会使得在处理过程中，某个节点的处理效率过低，甚至造成内存溢出。比如有1亿条性别数据，其中性别为男的数据有9900w，性别为女的有100w，处理的时候分到不同节点就容易造成数据倾阅读全文

posted @ 2023-08-10 15:10 一只小白two 阅读(1717) 评论(0) 推荐(0)

Hive的分区、分桶

摘要：Hive的分区表、分桶表一、 Hive库的分区表 1.1概述 Hive 中的表对应为 HDFS 上的指定目录，在查询数据时候，默认会对全表进行扫描，这样时间和性能的消耗都非常大。分区为 HDFS 上表目录的子目录，数据按照分区存储在子目录中。如果查询的 where 字句的中包含分区条件，则直接从阅读全文

posted @ 2023-05-29 10:04 一只小白two 阅读(1429) 评论(0) 推荐(0)

Hive元数据信息表

摘要：--Hive元数据表 1.表信息（1）TBLS--记录数据表信息，可作为左表，关联其他表信息（2）TABLE_PARAMS—存储Hive表的属性信息具体数据内容：（3）COLUMNS_V2—保存表的字段信息 2.分区信息（1）PARTITIONS （2）PARTITIONS_PARAMS— 阅读全文

posted @ 2023-04-12 14:19 一只小白two 阅读(499) 评论(0) 推荐(0)

Hive的SQL优化

摘要：--HiveSQL优化 1.查看执行计划 --基本信息 explain select * from part1 where id<10; --显示输入属性 explain dependency --查看SQL相关权限信息 explain authorization --查看SQL向量化描述信息，显示阅读全文

posted @ 2023-04-11 17:13 一只小白two 阅读(206) 评论(0) 推荐(0)

一只小白two

随笔分类 - 数据库学习 / HIVE

大数据数据倾斜的原因及解决办法

Hive的分区、分桶

Hive元数据信息表

Hive的SQL优化

导航

公告