hive 表分类
-
内部表
元数据被删,hdfs文件夹目录也被删除
-
外部表
元数据被删,hdfs文件夹目录文件不会被删
-
分区表
为表建立分区(可以是内部表,也可以是外部表),将表分为多个分区,查的时候,去具体的一个小分区中去查,速度更快。分区表实际上将表文件分成多个有标记的小文件以方便查询
-
桶表
分区表是将大文件划分为多个小文件以利于查询,但会出现数据分布不均衡,影响效率。桶表对hive指定列hash取余,相同余值列放入同一个文件夹,数据分布就更加均衡。
ps:桶表专门用于抽样查询,不是日常用来存储数据的表,在需要抽样查询是,才创建和使用桶表。
等我先恰个🍎

浙公网安备 33010602011771号