2013 年 9月 1 日随笔档案 - 樱色布

2013年9月1日

摘要：一. hdfs设计的动机为大规模分布式计算准备的分布式文件系统，并非实时性要求很高的文件系统。二. 设计的取舍1. 因为要求有高吞吐量，所以牺牲读取文件的实时性，实时性要求高的分布式文件系统可以选择hbase2. 使用廉价的机器，所以任意一个存储节点可能会挂掉，将之视为hadoop的常态3. 流式存储，一次写入，多次读取进行数据迭代，写入也尽量采取在文件的末尾进行追加的方式，在任意一处写入数据的操作代价很高，尽量不要做4. 不鼓励使用大量的小文件处理，每个小文件都需要都有一个元数据来存储这些小文件的信息，并且这些信息都存储在namenode上，一条元数据大概是150K左右的大小，而nameno 阅读全文

posted @ 2013-09-01 23:15 樱色布阅读(2385) 评论(0) 推荐(0)

cherri's Blog

乐观一点，勤奋一点，执着一点