摘要: ##使用“二次聚合”的思想 ##1.离线数据 Hive 、MR、 SPARK 1.1 场景描述 以MR为例,目前有p1 和 p2 两个分区, p1分区内有1亿条数据,key值为a ,p2分区内有一万条数据,key值为b ###1.2 解决思路 以SQL为例 首先,为key加上随机数,进行一次分区, 阅读全文
posted @ 2022-02-06 20:48 Later^^ 阅读(93) 评论(1) 推荐(0)