会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
李晓春
2018年8月7日
Spark分区数、task数目、core数目、worker节点数目、executor数目梳理
摘要: Spark分区数、task数目、core数目、worker节点数目、executor数目梳理 spark隐式创建由操作组成的逻辑上的有向无环图。驱动器执行时,它会把这个逻辑图转换为物理执行计划,然后将逻辑计划转换为一系列的步骤(stage),每个步骤由多个任务组成。 步骤组成任务、数据组成任务。所以
阅读全文
posted @ 2018-08-07 15:28 李晓春
阅读(1524)
评论(0)
推荐(3)
spark RDD中的partition和hdfs中的block的关系
摘要: hadoop的文件系统hdfs是一款非常优秀的分布式文件系统。hdfs为主从架构,主节点叫NameNode,从节点叫DataNode。主节点负责配合journalNode等完成fsimge完整性,从节点负责存储数据。节点之间通信。。。好吧跑题了! hdfs文件是分布式存储,每个文件根据配置被切分成b
阅读全文
posted @ 2018-08-07 10:05 李晓春
阅读(1005)
评论(0)
推荐(1)
Spark容错机制
摘要: 引入 一般来说,分布式数据集的容错性有两种方式:数据检查点和记录数据的更新。 面向大规模数据分析,数据检查点操作成本很高,需要通过数据中心的网络连接在机器之间复制庞大的数据集,而网络带宽往往比内存带宽低得多,同时还需要消耗更多的存储资源。 因此,Spark选择记录更新的方式。但是,如果更新粒度太细太
阅读全文
posted @ 2018-08-07 09:59 李晓春
阅读(325)
评论(0)
推荐(0)
导航
博客园
首页
新随笔
联系
订阅
管理
公告