2020年5月18日
摘要: BlockManager负责数据存储管理,原理图如下 相关代码在org.apache.spark.storage,BlockManagerMaster,BlockManagerMasterActor,主要是负责管理blockManager的映射 /* * Licensed to the Apache 阅读全文
posted @ 2020-05-18 22:45 清浊 阅读(368) 评论(0) 推荐(0)
摘要: 第一个特点, 在Spark早期版本中,那个bucket缓存是非常非常重要的,因为需要将一个ShuffleMapTask所有的数据都写入内存缓存之后,才会刷新到磁盘。但是这就有一个问题,如果map side数据过多,那么很容易造成内存溢出。所以spark在新版本中,优化了,默认那个内存缓存是100kb 阅读全文
posted @ 2020-05-18 22:12 清浊 阅读(509) 评论(0) 推荐(0)