2011 年 11月 23 日随笔档案 - 清风无尘

2011年11月23日

HDFS与小文件相关

摘要： HDFS也有块（Block）的概念，但它的块是一个很大的单元，默认是64MB。像硬盘中的文件系统一样，在HDFS中的文件将会按块大小进行分解，并作为独立的单元进行存储。但和硬盘中的文件系统不一样的是，存储在块中的一个比块小的文件并不会占据一个块大小的硬盘物理空间（HDFS中一个块只存储一个文件的内容）。那为什么HDFS中的块如此之大呢？ HDFS的块之所以这么大，主要原因就是为了把寻道（Seek）时间最小化。如果一个块足够大，那么从硬盘传输数据的时间将远远大于寻找块的起始位置的时间。这样就使得HDFS的数据传输速度和硬盘的传输速度更加接近。让我们来个简单的计算，假设寻道时间大约为1... 阅读全文

posted @ 2011-11-23 08:26 清风无尘阅读(984) 评论(0) 推荐(0)

MapReduce数据流

摘要：在上一篇文章中我们讲解了一个基本的MapReduce作业由那些基本组件组成，从高层来看，所有的组件在一起工作时如下图所示：图4.4高层MapReduce工作流水线 MapReduce的输入一般来自HDFS中的文件，这些文件分布存储在集群内的节点上。运行一个MapReduce程序会在集群的许多节点甚至所有节点上运行mapping任务，每一个mapping任务都是平等的：mappers没有特定“标识物”与其关联。因此，任意的mapper都可以处理任意的输入文件。每一个mapper会加载一些存储在运行节点本地的文件集来进行处理（译注：这是移动计算，把计算移动到数据所在节点，可以避免额外的数据传输开. 阅读全文

posted @ 2011-11-23 08:25 清风无尘阅读(307) 评论(0) 推荐(0)

清风无尘

导航

公告

HDFS与小文件相关

MapReduce数据流