摘要: shuffle优化之减少shuffle数据量 1.谓词下推 hive.optimize.ppd ,默认为true。 所谓谓词下推就是过滤条件如果写在shuffle操作后面,就提前过滤掉,减少参与shuffle的数据量 如 select * from a join b on a.id=b.id whe 阅读全文
posted @ 2021-03-25 18:14 肥仔佳文猪 阅读(435) 评论(0) 推荐(0)
摘要: 在算法中,各个排序算法的复杂度都比较高,正常情况下为O (nlogn) ,所以当数据量特别大的时候,对数组进行排序消耗都很大。 因为hive的计算引擎MapReduce是分布式系统, 利用分布式的特点,可以对排序的数据各个机器节点内有序,再做归并排序, 虽然这样做的复杂度还是O (nlogn) , 阅读全文
posted @ 2021-03-25 11:49 肥仔佳文猪 阅读(515) 评论(0) 推荐(0)