会员
周边
新闻
博问
AI培训
云市场
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
FrancisYoung
博客园
管理
2016年11月11日
读取hdfs文件之后repartition 避免数据倾斜
摘要: 场景一: api: textFile("hfds://....").map((key,value)).reduceByKey(...).map(实际的业务计算逻辑) 场景:hdfs的某个文件有183个block,他们的大小分布非常不均匀时,比如有的是200M,有的是1M,有的是10K。此时spark
阅读全文
posted @ 2016-11-11 17:30 王宝生
阅读(2117)
评论(0)
推荐(0)
编辑
公告