摘要: Spark Executor工作原理 ExecutorBackend注册 Executor实例化 Executor具体是如何工作的? CoarseGrainedExecutorBackend,粗粒度的ExecutorBackend进程。 Worker为什么要启动另外一个进程? Worker本身是管理 阅读全文
posted @ 2016-12-14 09:25 花心土豆 阅读(1206) 评论(0) 推荐(0) 编辑
摘要: Spark资源调度机制源码分析--基于spreadOutApps及非spreadOutApps两种资源调度算法 1、spreadOutApp尽量平均分配到每个executor上; 2、非spreadOutApp尽量在使用单个executor的资源。 源码分析 org.apache.spark.dep 阅读全文
posted @ 2016-12-13 23:21 花心土豆 阅读(642) 评论(0) 推荐(0) 编辑
摘要: 一、序言 以下是我对zookeeper 的一些理解: zookeeper 作为一个服务注册信息存储的管理工具,好吧,这样说得很抽象,我们举个“栗子”。 栗子1号: 假设我是一家KTV的老板,我同时拥有5家KTV,我肯定得时刻监视我KTV 的情况吧,是不是有人打架,或者发生火灾什么的,这时候我会给设置 阅读全文
posted @ 2016-12-09 18:22 花心土豆 阅读(166) 评论(0) 推荐(0) 编辑
摘要: dubbox由于当当没有发布到中央仓库,需要我们手动编译到本地仓库才可以使用,否则中央仓库下载不到dubbox相关的jar文件或配置 这个简单介绍只是方便大家运行了解dubbo以及rest功能 步骤如下: git clone https://github.com/dangdangdotcom/dub 阅读全文
posted @ 2016-12-09 18:07 花心土豆 阅读(1720) 评论(0) 推荐(0) 编辑
摘要: 转载地址:http://blog.csdn.net/AE86_FC/article/details/5842020 NameNode启动过程详细剖析 NameNode中几个关键的数据结构 FSImage Namenode会将HDFS的文件和目录元数据存储在一个叫fsimage的二进制文件中,每次保存 阅读全文
posted @ 2016-12-08 13:45 花心土豆 阅读(1380) 评论(0) 推荐(0) 编辑
摘要: Spark总结 Spark Engine RDD 弹性分布式数据集 partitons组成的,partition一定是一个具体的概念,就是一段连续的数据在某个物理节点 1,由一组partitions组成 2,应用在RDD上面的算子,会被应用到每一个partitions上面去 3,每一个RDD需要有依 阅读全文
posted @ 2016-12-05 18:28 花心土豆 阅读(1509) 评论(0) 推荐(0) 编辑
摘要: 【转载】http://tech.meituan.com/spark-tuning-basic.html 阅读全文
posted @ 2016-12-05 09:09 花心土豆 阅读(145) 评论(0) 推荐(0) 编辑
摘要: 【转载】http://tech.meituan.com/spark-tuning-pro.html 阅读全文
posted @ 2016-12-05 09:09 花心土豆 阅读(101) 评论(0) 推荐(0) 编辑
摘要: 【转载】http://tech.meituan.com/kafka-fs-design-theory.html 阅读全文
posted @ 2016-12-05 09:06 花心土豆 阅读(101) 评论(0) 推荐(0) 编辑
摘要: 【转载】http://tech.meituan.com/presto.html Facebook的数据仓库存储在少量大型Hadoop/HDFS集群。Hive是Facebook在几年前专为Hadoop打造的一款数据仓库工具。在以前,Facebook的科学家和分析师一直依靠Hive来做数据分析。但Hiv 阅读全文
posted @ 2016-12-05 08:57 花心土豆 阅读(462) 评论(0) 推荐(0) 编辑