9.24
排序:
order by: 全局排序, 只有一个 Reducer 所以慎用order by, 除非有过滤条件或limit之类的减少数据量
sort by: 每个 Reduce 内部排序, 可以有多个Reducer
分区 distribute by:
分区是把数据分到不同的reducer上, hash%reducer数量
distribute by 常和 sort by混用; 当二者所用字段相同时, 可以使用 cluster by 简写
分区表:
分区可以避免全表扫描, 只查询指定分区内容即可
分区就是分目录, 让数据分开存放更有条理
创建分区表: 加上 partitioned by(dt string)分区字段不能是表中已有的字段, 它像是一个伪列, 可以指定多个字段形成多级分区
浙公网安备 33010602011771号