2018年8月7日

摘要: Spark分区数、task数目、core数目、worker节点数目、executor数目梳理 spark隐式创建由操作组成的逻辑上的有向无环图。驱动器执行时,它会把这个逻辑图转换为物理执行计划,然后将逻辑计划转换为一系列的步骤(stage),每个步骤由多个任务组成。 步骤组成任务、数据组成任务。所以 阅读全文
posted @ 2018-08-07 15:28 李晓春 阅读(1524) 评论(0) 推荐(3)
摘要: hadoop的文件系统hdfs是一款非常优秀的分布式文件系统。hdfs为主从架构,主节点叫NameNode,从节点叫DataNode。主节点负责配合journalNode等完成fsimge完整性,从节点负责存储数据。节点之间通信。。。好吧跑题了! hdfs文件是分布式存储,每个文件根据配置被切分成b 阅读全文
posted @ 2018-08-07 10:05 李晓春 阅读(1005) 评论(0) 推荐(1)
摘要: 引入 一般来说,分布式数据集的容错性有两种方式:数据检查点和记录数据的更新。 面向大规模数据分析,数据检查点操作成本很高,需要通过数据中心的网络连接在机器之间复制庞大的数据集,而网络带宽往往比内存带宽低得多,同时还需要消耗更多的存储资源。 因此,Spark选择记录更新的方式。但是,如果更新粒度太细太 阅读全文
posted @ 2018-08-07 09:59 李晓春 阅读(325) 评论(0) 推荐(0)

导航