摘要: Hadoop分布式文件系统管理着跨计算机网络存储的文件系统称为分布式文件系统。使这个文件系统能容忍节点故障而不损失数据就是一个极大的挑战。HDFS是Hadoop的旗舰级文件系统。HDFS是为以流式数据访问模式存储超大文件而设计的文件系统。流式数据访问:一次写入,多次读取模式是最高效的。每次分析至少会涉及数据集中的大部分数据,因此读取整个数据集的时间比读取第一条记录的延迟更为重要。1 HDFS的概念HDFS的块默认为64M,HDFS中小于一个块大小的文件an不会占据整个块的空间。之所以要让HDFS的块远大与磁盘块,目的是为了减小寻址开销。MapReduce过程中国的Map任务通常是在一个时间内运 阅读全文
posted @ 2013-05-18 19:18 suzhou 阅读(238) 评论(0) 推荐(0) 编辑
摘要: 一些基本问题:1 避免数据丢失的常见做法是复制:通过系统保存数据的冗余副本,在故障发生时,可以使用数据的另一个副本,这就是冗余磁盘阵列的工作方式。Hadoop的文件系统HDFS(Hadoop Distributed Filesystem)2 大部分分析任务需要通过某种方式把数据合并起来。MapReduce提供一个编程模型,其抽象出磁盘读写的问题,将其转换为计算一个由成对键值组成的数据集。这个计算由来那个部分组成:Map 和Reduce。这两者的接口就是“整合”之地。3 简而言之,Hadoop提供了一个稳定的共享存储和分析系统,存储由HDFS实现,分析由MapReduce实现。4 寻址时间的提高 阅读全文
posted @ 2013-05-18 14:26 suzhou 阅读(197) 评论(0) 推荐(0) 编辑