摘要: 最近提交一个spark应用之后发现执行非常慢,点开spark web ui之后发现卡在一个job的一个stage上,这个stage有100000个task,但是绝大部分task都分配到两个executor上,其他executor非常空闲,what happened? 查看spark task分配逻辑 阅读全文
posted @ 2018-12-20 21:44 匠人先生 阅读(2236) 评论(0) 推荐(0)
摘要: 一 简介 spark核心是RDD,官方文档地址:https://spark.apache.org/docs/latest/rdd-programming-guide.html#resilient-distributed-datasets-rdds官方描述如下:重点是可容错,可并行处理 Spark r 阅读全文
posted @ 2018-12-20 21:18 匠人先生 阅读(1665) 评论(0) 推荐(1)