摘要:
试想一下,你现在所在的公司有一个hadoop的集群。但是A项目组经常做一些定时的BI报表,B项目组则经常使用一些软件做一些临时需求。那么他们肯定会遇到同时提交任务的场景,这个时候到底如何分配资源满足这两个任务呢?... 阅读全文
posted @ 2017-11-07 15:28
柚子=_=
阅读(731)
评论(0)
推荐(0)
摘要:
虽然spark已经提供了大量简单易用的API,但要想编写出高性能的spark应用,必须要对整体框架有一定的了解,对于Spark初学者来说是比较困难的。针对这个这个问题,其实在spark1.6中,已经加入了data... 阅读全文
posted @ 2017-11-07 15:19
柚子=_=
阅读(236)
评论(0)
推荐(0)
摘要:
一. 数据倾斜的现象多数task执行速度较快,少数task执行时间非常长,或者等待很长时间后提示你内存不足,执行失败。二. 数据倾斜的原因常见于各种shuffle操作,例如reduceByKey,groupByK... 阅读全文
posted @ 2017-11-07 15:18
柚子=_=
阅读(153)
评论(0)
推荐(0)
摘要:
阅读全文
posted @ 2017-11-07 15:16
柚子=_=
阅读(96)
评论(0)
推荐(0)

浙公网安备 33010602011771号