2021 年 3月 25 日随笔档案 - 肥仔佳文猪

2021年3月25日

摘要： shuffle优化之减少shuffle数据量 1.谓词下推 hive.optimize.ppd ，默认为true。所谓谓词下推就是过滤条件如果写在shuffle操作后面，就提前过滤掉，减少参与shuffle的数据量如 select * from a join b on a.id=b.id whe 阅读全文

posted @ 2021-03-25 18:14 肥仔佳文猪阅读(435) 评论(0) 推荐(0)

hive的排序 order by和sort by

摘要：在算法中，各个排序算法的复杂度都比较高，正常情况下为O (nlogn) ，所以当数据量特别大的时候，对数组进行排序消耗都很大。因为hive的计算引擎MapReduce是分布式系统，利用分布式的特点，可以对排序的数据各个机器节点内有序，再做归并排序，虽然这样做的复杂度还是O (nlogn) ，阅读全文

posted @ 2021-03-25 11:49 肥仔佳文猪阅读(515) 评论(0) 推荐(0)

公告