摘要: 1.什么是分桶 分桶就是将数据按照指定字段进行划分到多个文件中去。分桶就是MapReduce中的分区 2.开启Hive的分桶功能,设置Reduce个数 3.创建分桶表 注:根据c_id将数据划分到3个桶中,分桶的关键字是 clustered by()into ()buckets 将数据划分到几个桶中 阅读全文
posted @ 2020-08-24 08:46 Protect_Winter 阅读(865) 评论(0) 推荐(0)
摘要: 1.什么是分区表 在大数据中,最常用的一种思想就是分治,我们可以把大的文件分割成一个个的小文件,这样每次操作一个小文件就很容易了。在hive中仍然支持这种操作,将大的数据按照时间等划分成一个个的小文件,存放在不同的文件夹中。 2.创建分区表 关键字:partitioned by(分区字段,类型)分区 阅读全文
posted @ 2020-08-24 08:22 Protect_Winter 阅读(251) 评论(0) 推荐(0)