loading

hive 表分类

  1. 内部表

元数据被删,hdfs文件夹目录也被删除
  1. 外部表

元数据被删,hdfs文件夹目录文件不会被删
  1. 分区表

为表建立分区(可以是内部表,也可以是外部表),将表分为多个分区,查的时候,去具体的一个小分区中去查,速度更快。分区表实际上将表文件分成多个有标记的小文件以方便查询
  1. 桶表

分区表是将大文件划分为多个小文件以利于查询,但会出现数据分布不均衡,影响效率。桶表对hive指定列hash取余,相同余值列放入同一个文件夹,数据分布就更加均衡。
ps:桶表专门用于抽样查询,不是日常用来存储数据的表,在需要抽样查询是,才创建和使用桶表。

 

posted @ 2020-10-07 20:16  EaApple  阅读(229)  评论(0)    收藏  举报