2015 年 10月随笔档案 - 徐软件

Spark Shuffle 过程

摘要：本文参考：http://www.cnblogs.com/cenyuhai/p/3826227.html在数据流动的整个过程中，最复杂最影响性能的环节，就是 Shuffle 过程，本文将参考大神的博客，根据 Spark-1.5 的代码，再次走读一遍。Shuffle 过程Spark 中最经典的 Shuf... 阅读全文

posted @ 2015-10-12 09:51 徐软件阅读(334) 评论(0) 推荐(0)

Spark Storage 模块

摘要：http://jerryshao.me/architecture/2013/10/08/spark-storage-module-analysis/大神写的太好了，我就不重复造轮子了。Spark 1.5 与 Spark 0.7 在 Storage 模块的结构几乎一致，改变的地方在于：1. RpcEn... 阅读全文

posted @ 2015-10-07 17:02 徐软件阅读(277) 评论(0) 推荐(0)

Spark Deploy 模块

摘要：Spark Scheduler 模块的文章中，介绍到 Spark 将底层的资源管理和上层的任务调度分离开来，一般而言，底层的资源管理会使用第三方的平台，如 YARN 和 Mesos。为了方便用户测试和使用，Spark 也单独实现了一个简单的资源管理平台，也就是本文介绍的 Deploy 模块。一些有经... 阅读全文

posted @ 2015-10-06 13:16 徐软件阅读(476) 评论(0) 推荐(0)

Spark Scheduler 模块（下）

摘要：Scheduler 模块中最重要的两个类是DAGScheduler 和 TaskScheduler。上篇讲了DAGScheduler，这篇讲TaskScheduler。TaskScheduler前面提到，在 SparkContext 初始化的过程中，根据 master 的类型分别创建不同的 Task... 阅读全文

posted @ 2015-10-04 20:18 徐软件阅读(303) 评论(0) 推荐(0)

Spark Scheduler 模块（上）

摘要：在阅读 Spark 源代码的过程中，发现单步调试并不能很好的帮助理解程序。这样的多线程的分布式系统，更好的阅读源代码的方式是依据模块，分别理解。在包 org.apache.spark 下面有很多下一级的包，如 deploy, storage, shuffle, scheduler 等。这就是一个个系... 阅读全文

posted @ 2015-10-03 17:29 徐软件阅读(317) 评论(0) 推荐(0)

RDD 可视化 —— RDDOperationScope.withScope

摘要：最近在看各种博客，学习 spark 源代码。网上对源代码的分析基本都是基于 0.7, 0.8, 1.0 的代码，而现在的发行版已经是 1.5 了。所以有些代码不大对的上。比如函数 RDD.map()旧版本是：def mapU: ClassTag: RDD[U] = new MappedRDD(thi... 阅读全文

posted @ 2015-10-02 17:37 徐软件阅读(1008) 评论(0) 推荐(0)

徐软件的博客

或有时而不彰

10 2015 档案

公告