云计算 - 随笔分类 - Scott007

Tachyon框架的Worker心跳及Master高可用性分析

摘要：0 概述分布式框架中的Master-Slave类型，Slave节点负责工作的具体执行，Master负责任务的分发或者相关元数据的存储等。一般情况下，一个Master节点都会对应多个Slave节点，Master在分配任务时需要知道当前有哪些Slave节点是可以接受自己所发的命令的(Slave节点有可... 阅读全文

posted @ 2014-09-23 23:00 Scott007 阅读(1809) 评论(0) 推荐(2)

Spark1.0.x入门指南

摘要：1 节点说明IPRole192.168.1.111ActiveNameNode192.168.1.112StandbyNameNode,Master,Worker192.168.1.113DataNode,Master,Worker192.168.1.114DataNode,WorkerHDFS集群... 阅读全文

posted @ 2014-07-16 21:36 Scott007 阅读(5171) 评论(2) 推荐(5)

Mapreduce执行过程分析(基于Hadoop2.4)——(三)

摘要：4.4 Reduce类4.4.1 Reduce介绍整完了Map，接下来就是Reduce了。YarnChild.main()—>ReduceTask.run()。ReduceTask.run方法开始和MapTask类似，包括initialize()初始化，根据情况看是否调用runJobCleanupT... 阅读全文

posted @ 2014-07-13 15:55 Scott007 阅读(1401) 评论(0) 推荐(2)

Mapreduce执行过程分析(基于Hadoop2.4)——(二)

摘要：4.3 Map类创建Map类和map函数，map函数是org.apache.hadoop.mapreduce.Mapper类中的定义的，当处理每一个键值对的时候，都要调用一次map方法，用户需要覆写此方法。此外还有setup方法和cleanup方法。map方法是当map任务开始运行的时候调用一次，... 阅读全文

posted @ 2014-07-12 16:36 Scott007 阅读(2469) 评论(1) 推荐(1)

Mapreduce执行过程分析(基于Hadoop2.4)——(一)

摘要：1 概述该瞅瞅MapReduce的内部运行原理了，以前只知道个皮毛，再不搞搞，不然怎么死的都不晓得。下文会以2.4版本中的WordCount这个经典例子作为分析的切入点，一步步来看里面到底是个什么情况。2 为什么要使用MapReduceMap/Reduce，是一种模式，适合解决并行计算的问题，比如T... 阅读全文

posted @ 2014-07-10 22:29 Scott007 阅读(3104) 评论(3) 推荐(2)

Hadoop2.3+Hive0.12集群部署

摘要：0 机器说明IPRole192.168.1.106NameNode、DataNode、NodeManager、ResourceManager192.168.1.107SecondaryNameNode、NodeManager、DataNode192.168.1.108NodeManager、Data... 阅读全文

posted @ 2014-03-20 23:59 Scott007 阅读(3793) 评论(0) 推荐(1)

Storm入门

摘要：Storm框架入门1 Topology构成和同样是计算框架的Mapreduce相比，Mapreduce集群上运行的是Job，而Storm集群上运行的是Topology。但是Job在运行结束之后会自行结束，Topology却只能被手动的kill掉，否则会一直运行下去。 Storm集群中有两种节点，一种是控制节点(Nimbus节点)，另一种是工作节点(Supervisor节点)。所有Topology任务的提交必须在Storm客户端节点上进行(需要配置~/.storm/storm.yaml文件)，由Nimbus节点分配给其他Supervisor节点进行处理。Nimbus节点首先将提交的Topolo 阅读全文

posted @ 2013-09-14 11:00 Scott007 阅读(2224) 评论(0) 推荐(2)

HDFS2.x之RPC流程分析

摘要：HDFS2.x之RPC流程分析1 概述 Hadoop提供了一个统一的RPC机制来处理client-namenode, namenode-dataname,client-dataname之间的通信。RPC是整个Hadoop中通信框架的核心，目前采用ProtocolBuf作为RPC的默认实现。RPC的整体调用流程如下：2 Protobuf Protocol buffer（以下简称PB），PB是Google开源的一种轻便高效的结构化数据存储格式，可以用于结构化数据的序列化和反序列化，很适合做数据存储或 RPC 数据交换格式，目前提供了 C++、Java、Python 三种语言的 API。序列化/反序阅读全文

posted @ 2013-08-21 20:10 Scott007 阅读(2162) 评论(0) 推荐(0)

Hadoop2.x集群动态添加删除数据节点

摘要：如果Hadoop集群已经在运行了，这时可能需要动态的添加新的数据节点到Hadoop系统中去，或者将某个数据节点下线，由于业务的需要，集群是不能重启的，那么具体的DataNode添加、删除步骤是什么样的呢？下面以DataNode的上线为例详细说明下如何动态的给HDFS集群新增数据节点(Hadoop2.0版本)。首先简单说下几个相关的配置文件。(1)由dfs.hosts配置选项指定的白名单文件，当要新上线数据节点的时候，需要把数据节点的名字追加在此文件中；(2)由dfs.hosts.exclude配置选项指定的黑名单文件，当要下线数据节点的时候，需要把数据节点的名字追加在此文件中；下面开始步. 阅读全文

posted @ 2013-06-13 21:49 Scott007 阅读(2149) 评论(0) 推荐(0)

Amazon S3 功能介绍

摘要：1 存储过程创建用于存储数据元的桶，可以选择数据元所驻留的地区（目前来说，选择东京、新加坡会快些，美国本土更便宜），上传数据元到桶，进行持久化存储。另外，可以对上传的数据元及桶进行访问控制、加密等设置。每个AWS账户可以创建多个用户，用户可以对所拥有的数据进行上述权限控制。目前可存储的你内容有：(1)多媒体、音乐、图片(2)视频监控文件(3)医疗系统的档案、资料(4)静态网站资料2 管理通过AWS管理控制台对数据进行控制。AWS控制台类似于EC2的web控制界面，或者通过API接口(Java、.Net)、REST接口编程实现。3 S3功能简述(1)创建桶、删除桶(2)写入、读取、删除数据阅读全文

posted @ 2013-06-04 22:24 Scott007 阅读(8101) 评论(1) 推荐(0)

HDFS中块状态分析

摘要：HDFS中的Block状态分析文件在HDFS里进行读取和存储的时候大都是以block的形式存在和表现。每个文件都可能会有很多个block，每个block又会根据配置文件中的replica的value设置有着多个备份。在NN(NameNode)中，称之为block的这些个东东，在DN(DataNode)中通常叫做replica(都是指的同一种东东)。Block在NN中和DN中随着操作的不同，会有多种状态，这些状态因不同的操作而触发，又因不同的操作而发生转变。下面就分别分析block在NN中和DN中的各种状态以及状态之间的转变。1 DN端的block状态 DN端block状态都保存在DN的内存之阅读全文

posted @ 2013-05-30 20:12 Scott007 阅读(1197) 评论(0) 推荐(0)

莫畏浮云遮望眼~

随笔分类 - 云计算