摘要:
1. 报错信息[2022-01-29 16:58:29.312]Container [pid=11436,containerID=container_1642484815040_0052_01_000012] is running 348617216B beyond the 'VIRTUAL' me 阅读全文
posted @ 2022-01-29 18:34
学而不思则罔!
阅读(247)
评论(0)
推荐(0)
摘要:
1. 什么是分桶表-- 根据指定的分桶字段 和 分桶数,将数据划分成 不同的数据文件-- hash(分桶字段) % 分桶数 = 文件分桶编号2. 分桶和分区的区别-- 1. 分桶针对 数据文件进行 拆分-- 分区针对 数据文件存储路径进行 拆分-- 2. 分区字段 并不是数据文件的一部分-- 分桶字 阅读全文
posted @ 2022-01-29 18:30
学而不思则罔!
阅读(236)
评论(0)
推荐(0)
摘要:
1. 什么是分区 1. Hive 中的分区就是 分目录(对数据文件) (表 = 目录,分区 = 目录)2. 为什么创建分区(分区的好处) 1. 数据隔离&查询优化3. 单分区 -- 单分区 -- 创建分区表(单个分区) create table home.ods_front_log_dd ( log 阅读全文
posted @ 2022-01-29 17:31
学而不思则罔!
阅读(551)
评论(0)
推荐(0)
摘要:
1. order by(全局排序) 1. 全局排序, 无论设置多少个 reduce个数,只会产生一个reduce 2. 对大规模的数据集,全局排序效率非常低 1. 设置分区个数为 3 set mapreduce.job.reduces=3; 2. 运行sql select name ,num fro 阅读全文
posted @ 2022-01-29 11:41
学而不思则罔!
阅读(346)
评论(0)
推荐(0)

浙公网安备 33010602011771号