会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
Later^^
有道无术术尚可求
博客园
首页
新随笔
联系
订阅
管理
2022年2月6日
数据倾斜通用处理方式
摘要: ##使用“二次聚合”的思想 ##1.离线数据 Hive 、MR、 SPARK 1.1 场景描述 以MR为例,目前有p1 和 p2 两个分区, p1分区内有1亿条数据,key值为a ,p2分区内有一万条数据,key值为b ###1.2 解决思路 以SQL为例 首先,为key加上随机数,进行一次分区,
阅读全文
posted @ 2022-02-06 20:48 Later^^
阅读(93)
评论(1)
推荐(0)
公告