摘要:
一MapReduce概述Map/Reduce是一个用于大规模数据处理的分布式计算模型,它最初是由Google工程师设计并实现的,Google已经将它完整的MapReduce论文公开发布了。其中对它的定义是,Map/Reduce是一个编程模型(programmingmodel),是一个用于处理和生成大规模数据集(processing and generating large data sets)的相关的实现。用户定义一个map函数来处理一个key/value对以生成一批中间的key/value对,再定义一个reduce函数将所有这些中间的有着相同key的values合并起来。很多现实世界中的任务 阅读全文
posted @ 2014-01-11 17:12
飘荡小黄鸭
阅读(205)
评论(0)
推荐(0)
摘要:
HDFS写入文件的重要概念HDFS一个文件由多个block构成。HDFS在进行block读写的时候是以packet(默认每个packet为64K)为单位进行的。每一个packet由若干个chunk(默认512Byte)组成。Chunk是进行数据校验的基本单位,对每一个chunk生成一个校验和(默认4Byte)并将校验和进行存储。在写入一个block的时候,数据传输的基本单位是packet,每个packet由若干个chunk组成。HDFS客户端写文件示例代码FileSystem hdfs = FileSystem.get(new Configuration());Path path = new 阅读全文
posted @ 2014-01-11 17:11
飘荡小黄鸭
阅读(304)
评论(0)
推荐(0)
摘要:
HDFS读取文件的重要概念HDFS一个文件由多个block构成。HDFS在进行block读写的时候是以packet(默认每个packet为64K)为单位进行的。每一个packet由若干个chunk(默认512Byte)组成。Chunk是进行数据校验的基本单位,对每一个chunk生成一个校验和(默认4Byte)并将校验和进行存储。在读取一个block的时候,数据传输的基本单位是packet,每个packet由若干个chunk组成。HDFS客户端读文件示例代码FileSystem hdfs = FileSystem.get(new Configuration());Path path = new 阅读全文
posted @ 2014-01-11 17:10
飘荡小黄鸭
阅读(338)
评论(0)
推荐(0)
摘要:
datanode的介绍一个典型的HDFS系统包括一个NameNode和多个DataNode。DataNode是hdfs文件系统中真正存储数据的节点。每个DataNode周期性和唯一的NameNode通信,还时不时和hdfs客户端代码以及其他datanode通信。datanode维护一个重要的表: 块=>字节流这些存储在本地磁盘,DataNode在启动时,还有启动后周期性报告给NameNode,这个表的内容。DataNodes周期性请求NameNode询问命令操作,NameNode不能直接连接DataNode,NameNode在DataNode调用时,简单返回值。DataNodes还维护一 阅读全文
posted @ 2014-01-11 17:08
飘荡小黄鸭
阅读(561)
评论(0)
推荐(0)
摘要:
HDFS namenode源码分析Namenode的介绍一个典型的HDFS系统包括一个NameNode和多个DataNode。NameNode作为HDFS中文件目录和文件分配的管理者,它保存的最重要信息,就是下面两个映射:文件名=>数据块数据块=>DataNode列表其中,文件名=>数据块保存在磁盘上(持久化);但NameNode上不保存数据块=>DataNode列表,该列表是通过DataNode上报建立起来的。NameNode启动流程在命令行启动namenode的方法是:bin/hadoop namenode查看bin/hadoop脚本,可以看到最后执行的java类是 阅读全文
posted @ 2014-01-11 17:06
飘荡小黄鸭
阅读(350)
评论(0)
推荐(0)
摘要:
HDFS的基本概念1、数据块(block)HDFS(Hadoop Distributed File System)默认的最基本的存储单位是64M的数据块。和普通文件系统相同的是,HDFS中的文件是被分成64M一块的数据块存储的。不同于普通文件系统的是,HDFS中,如果一个文件小于一个数据块的大小,并不占用整个数据块存储空间。2、元数据节点(Namenode)和数据节点(datanode)namenode用来管理文件系统的命名空间其将所有的文件和文件夹的元数据保存在一个文件系统树中。这些信息也会在硬盘上保存成以下文件:命名空间镜像(namespace image)及修改日志(edit log)其 阅读全文
posted @ 2014-01-11 17:00
飘荡小黄鸭
阅读(359)
评论(0)
推荐(0)
浙公网安备 33010602011771号