摘要: 1 概述本文档目的在于对namenode中各种关键的数据结构进行剖析和解释,以方便更好的对namenode的各种处理逻辑和代码结构进行理解。其中包括对namenode中Namenode和FSNameSystem的程序代码结构,FSDirectory,BlocksMap, CorruptReplicationMap,excessReplicateMap, UnderReplicatedBlocks,PendingReplictiondBlocks等数据结构的介绍。1.1 代码结构1.1.1 NameNode在HDFS中,namenode的服务提供整个HDFS文件系统的namespace管理,块管 阅读全文
posted @ 2012-12-09 21:04 beanmoon 阅读(1111) 评论(0) 推荐(1) 编辑
摘要: 很多MapReduce程序受限于集群上可用的带宽,所以它会尽力最小化需要在map和reduce任务之间传输的中间数据。Hadoop允许用户声明一个combiner function来处理map的输出,同时把自己对map的处理结果作为reduce的输入。因为combiner function本身只是一种优化,hadoop并不保证对于某个map输出,这个方法会被调用多少次。换句话说,不管combiner function被调用多少次,对应的reduce输出结果都应该是一样的。 下面我们以学习笔记(一)中的例子来加以说明,假设1950年的天气数据读取是由两个map完成的,其中第一个map的输出... 阅读全文
posted @ 2012-12-09 09:10 beanmoon 阅读(2787) 评论(0) 推荐(0) 编辑