随笔分类 -  hadoop

hadoop的心跳回忆
摘要:hadoop的集群是基于master/slave模式,namenode和jobtracker属于master,而datanode/tasktracker属于slaves。master只有一个,而slaves有多个。namenode与datanode之间的通信,jobtracker与tasktracker直接的通信,都是通过“心跳”完成的。以前看过hadoop心跳原理的源代码,今天再回忆一下,呵呵,所以叫“心跳回忆”。1、心跳机制心跳的机制大概是这样的:1) master启动的时候,会开一个ipc server在那里。2) slave启动时,会连接master,并每隔3秒钟主动向master发送 阅读全文
posted @ 2012-09-16 16:32 aaronwxb 阅读(546) 评论(2) 推荐(0)
HDFS的block Id与generation stamp
摘要:hdfs的数据是以block为单位存储的,所以了解block的结构对理解hdfs的工作机制非常重要。先来看一下Block类,它含有三个成员:blockId,numBytes和generationStamp。numBytes即block的大小,而另外两个分别是什么呢?blockId是block的标识符,可以从block文件名中看到,例如${hadoop.tmp.dir}/dfs/data/current/blk_826540629399449945,这一串数字就是blockId。同目录下另一个meta文件,如blk_826540629399449945_1017.meta,1017即是gener 阅读全文
posted @ 2012-09-16 16:01 aaronwxb 阅读(2161) 评论(0) 推荐(0)
利用heartbeat和drbd实现HDFS的双机热备
摘要:利用heartbeat和drbd实现HDFS的双机热备 written by aaronwxb,2012.03.30主要原理:利用DRBD实现共享存储空间,在主服务器(primary)将元数据写入本机时同时要写入备份节点(secondary),才算一次写操作完成,实现元数据的实时备份。利用heartbeat实现自动切换功能,双方之间发送心跳,若备份节点一旦其无法检测到主服务器的“心跳”则自动接管主服务器的资源。虚拟机环境配置:用vbox安装虚拟机,OS为ubuntu11.10,虚拟机双网卡,网卡配置为桥接方式,主要设置如下:主机IP地址配置master(主节点)eth... 阅读全文
posted @ 2012-04-06 17:38 aaronwxb 阅读(2192) 评论(4) 推荐(0)
hadoop双机热备——facebook hadoop HA的资料整理
摘要:Facebook Hadoop HA organized by aaronwxb,04.01一些数据21 PB of storage in a singleHDFScluster2000 machines12 TB per machine (a few machines have 24 TB each)1200 machines with 8 cores each + 800 machines with 16 cores each32 GB of RAM per machine15 map-reduce tasks per machineThe master had 6... 阅读全文
posted @ 2012-04-06 17:32 aaronwxb 阅读(3006) 评论(1) 推荐(2)