03 2022 档案

摘要:这里我们使用两阶段keyby 解决该问题 之前的问题如下图所示 我们期望的是 但我们的需要根据key进行聚合统计,那么把相同的key放在不同的subtask如何统计? 我们看下图(只画了主要部分) 1.首先将key打散,我们加入将key转化为 key-随机数 ,保证数据散列 2.对打散后的数据进行聚 阅读全文
posted @ 2022-03-01 15:45 菩提树的影子 阅读(157) 评论(0) 推荐(0)