2018 年 8月 7 日随笔档案 - 李晓春

Spark分区数、task数目、core数目、worker节点数目、executor数目梳理

摘要： Spark分区数、task数目、core数目、worker节点数目、executor数目梳理 spark隐式创建由操作组成的逻辑上的有向无环图。驱动器执行时，它会把这个逻辑图转换为物理执行计划，然后将逻辑计划转换为一系列的步骤（stage），每个步骤由多个任务组成。步骤组成任务、数据组成任务。所以阅读全文

posted @ 2018-08-07 15:28 李晓春阅读(1527) 评论(0) 推荐(3)

spark RDD中的partition和hdfs中的block的关系

摘要： hadoop的文件系统hdfs是一款非常优秀的分布式文件系统。hdfs为主从架构，主节点叫NameNode,从节点叫DataNode。主节点负责配合journalNode等完成fsimge完整性，从节点负责存储数据。节点之间通信。。。好吧跑题了！ hdfs文件是分布式存储，每个文件根据配置被切分成b 阅读全文

posted @ 2018-08-07 10:05 李晓春阅读(1009) 评论(0) 推荐(1)

Spark容错机制

摘要：引入一般来说，分布式数据集的容错性有两种方式：数据检查点和记录数据的更新。面向大规模数据分析，数据检查点操作成本很高，需要通过数据中心的网络连接在机器之间复制庞大的数据集，而网络带宽往往比内存带宽低得多，同时还需要消耗更多的存储资源。因此，Spark选择记录更新的方式。但是，如果更新粒度太细太阅读全文

posted @ 2018-08-07 09:59 李晓春阅读(337) 评论(0) 推荐(0)

李晓春

导航

公告