随笔分类 -  云计算

摘要:0 概述 分布式框架中的Master-Slave类型,Slave节点负责工作的具体执行,Master负责任务的分发或者相关元数据的存储等。一般情况下,一个Master节点都会对应多个Slave节点,Master在分配任务时需要知道当前有哪些Slave节点是可以接受自己所发的命令的(Slave节点有可... 阅读全文
posted @ 2014-09-23 23:00 Scott007 阅读(1786) 评论(0) 推荐(2)
摘要:1 节点说明IPRole192.168.1.111ActiveNameNode192.168.1.112StandbyNameNode,Master,Worker192.168.1.113DataNode,Master,Worker192.168.1.114DataNode,WorkerHDFS集群... 阅读全文
posted @ 2014-07-16 21:36 Scott007 阅读(5117) 评论(2) 推荐(5)
摘要:4.4 Reduce类4.4.1 Reduce介绍整完了Map,接下来就是Reduce了。YarnChild.main()—>ReduceTask.run()。ReduceTask.run方法开始和MapTask类似,包括initialize()初始化,根据情况看是否调用runJobCleanupT... 阅读全文
posted @ 2014-07-13 15:55 Scott007 阅读(1382) 评论(0) 推荐(2)
摘要:4.3 Map类 创建Map类和map函数,map函数是org.apache.hadoop.mapreduce.Mapper类中的定义的,当处理每一个键值对的时候,都要调用一次map方法,用户需要覆写此方法。此外还有setup方法和cleanup方法。map方法是当map任务开始运行的时候调用一次,... 阅读全文
posted @ 2014-07-12 16:36 Scott007 阅读(2434) 评论(1) 推荐(1)
摘要:1 概述该瞅瞅MapReduce的内部运行原理了,以前只知道个皮毛,再不搞搞,不然怎么死的都不晓得。下文会以2.4版本中的WordCount这个经典例子作为分析的切入点,一步步来看里面到底是个什么情况。2 为什么要使用MapReduceMap/Reduce,是一种模式,适合解决并行计算的问题,比如T... 阅读全文
posted @ 2014-07-10 22:29 Scott007 阅读(3075) 评论(3) 推荐(2)
摘要:0 机器说明IPRole192.168.1.106NameNode、DataNode、NodeManager、ResourceManager192.168.1.107SecondaryNameNode、NodeManager、DataNode192.168.1.108NodeManager、Data... 阅读全文
posted @ 2014-03-20 23:59 Scott007 阅读(3747) 评论(0) 推荐(1)
摘要:Storm框架入门1 Topology构成 和同样是计算框架的Mapreduce相比,Mapreduce集群上运行的是Job,而Storm集群上运行的是Topology。但是Job在运行结束之后会自行结束,Topology却只能被手动的kill掉,否则会一直运行下去。 Storm集群中有两种节点,一种是控制节点(Nimbus节点),另一种是工作节点(Supervisor节点)。所有Topology任务的提交必须在Storm客户端节点上进行(需要配置~/.storm/storm.yaml文件),由Nimbus节点分配给其他Supervisor节点进行处理。Nimbus节点首先将提交的Topolo 阅读全文
posted @ 2013-09-14 11:00 Scott007 阅读(2191) 评论(0) 推荐(2)
摘要:HDFS2.x之RPC流程分析1 概述 Hadoop提供了一个统一的RPC机制来处理client-namenode, namenode-dataname,client-dataname之间的通信。RPC是整个Hadoop中通信框架的核心,目前采用ProtocolBuf作为RPC的默认实现。RPC的整体调用流程如下:2 Protobuf Protocol buffer(以下简称PB),PB是Google开源的一种轻便高效的结构化数据存储格式,可以用于结构化数据的序列化和反序列化,很适合做数据存储或 RPC 数据交换格式,目前提供了 C++、Java、Python 三种语言的 API。序列化/反序 阅读全文
posted @ 2013-08-21 20:10 Scott007 阅读(2130) 评论(0) 推荐(0)
摘要:如果Hadoop集群已经在运行了,这时可能需要动态的添加新的数据节点到Hadoop系统中去,或者将某个数据节点下线,由于业务的需要,集群是不能重启的,那么具体的DataNode添加、删除步骤是什么样的呢?下面以DataNode的上线为例详细说明下如何动态的给HDFS集群新增数据节点(Hadoop2.0版本)。 首先简单说下几个相关的配置文件。(1)由dfs.hosts配置选项指定的白名单文件,当要新上线数据节点的时候,需要把数据节点的名字追加在此文件中;(2)由dfs.hosts.exclude配置选项指定的黑名单文件,当要下线数据节点的时候,需要把数据节点的名字追加在此文件中; 下面开始步. 阅读全文
posted @ 2013-06-13 21:49 Scott007 阅读(2138) 评论(0) 推荐(0)
摘要:1 存储过程 创建用于存储数据元的桶,可以选择数据元所驻留的地区(目前来说,选择东京、新加坡会快些,美国本土更便宜),上传数据元到桶,进行持久化存储。另外,可以对上传的数据元及桶进行访问控制、加密等设置。每个AWS账户可以创建多个用户,用户可以对所拥有的数据进行上述权限控制。 目前可存储的你内容有:(1)多媒体、音乐、图片(2)视频监控文件(3)医疗系统的档案、资料(4)静态网站资料2 管理 通过AWS管理控制台对数据进行控制。AWS控制台类似于EC2的web控制界面,或者通过API接口(Java、.Net)、REST接口编程实现。3 S3功能简述(1)创建桶、删除桶(2)写入、读取、删除数据 阅读全文
posted @ 2013-06-04 22:24 Scott007 阅读(8071) 评论(1) 推荐(0)
摘要:HDFS中的Block状态分析 文件在HDFS里进行读取和存储的时候大都是以block的形式存在和表现。每个文件都可能会有很多个block,每个block又会根据配置文件中的replica的value设置有着多个备份。在NN(NameNode)中,称之为block的这些个东东,在DN(DataNode)中通常叫做replica(都是指的同一种东东)。Block在NN中和DN中随着操作的不同,会有多种状态,这些状态因不同的操作而触发,又因不同的操作而发生转变。下面就分别分析block在NN中和DN中的各种状态以及状态之间的转变。1 DN端的block状态 DN端block状态都保存在DN的内存之 阅读全文
posted @ 2013-05-30 20:12 Scott007 阅读(1176) 评论(0) 推荐(0)