随笔分类 -  Spark

摘要:Driver Program, Job和Stage是Spark中的几个基本概念。Spark官方文档中对于这几个概念的解释比较简单,对于初学者很难正确理解他们的涵义。 官方解释如下(http://spark.apache.org/docs/latest/cluster-overview.html):  阅读全文
posted @ 2016-04-25 15:49 至燃烧殆尽的青春 阅读(2633) 评论(0) 推荐(0)
摘要:1、自动的进行磁盘数据和内存之间的无缝切换 2、基于lineage的高效容错,第n个出错,会从第n-1个开始执行 3、task失败会进行特定次数的重试 4、stage失败会自动进行特定次数的重试,并且只运行计算失败的数据分片 5、checkpoint(类似单机游戏里的存档)和presist,持久化c 阅读全文
posted @ 2016-04-21 22:48 至燃烧殆尽的青春 阅读(235) 评论(0) 推荐(0)