博客 Hadoop权威指南笔记 - 随笔分类 - keedor

摘要：distcp并行复制 Hadoop存档阅读全文

posted @ 2015-04-06 11:13 keedor 阅读(139) 评论(0) 推荐(0)

摘要：Hadoop是一次写入, 多次读取，因为这种被认为是最高效的访问模式. HDFS为高数据吞吐量优化, 高时间延迟. 对于低延迟, HBase是更好的选择. 大量的小文件不适合HDFS: namenode将文件系统的元数据存储在内存中，包括文件，目录，数据块的存储信息，如果有大量的小文件，那么这些存储信息占了很大的内存，NameNode有可能没有这么大的内存来装这么多的信息 ... 阅读全文

posted @ 2015-04-05 17:13 keedor 阅读(279) 评论(0) 推荐(0)

《Hadoop权威指南》笔记第二章 Hadoop Streaming

摘要：什么是Hadoop Streaming Hadoop提供的一个编程工具，允许用户使用任何可执行文件或脚本作为mapper和Reducer 一个例子(shell简洁版本) $HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/contrib/streaming/hadoop-*-streaming.jar \ -input myInputDirs \... 阅读全文

posted @ 2015-04-05 10:26 keedor 阅读(379) 评论(0) 推荐(0)

《Hadoop权威指南》笔记第一章&第二章 MapReduce初探

摘要：使用MapReduce import java.io.IOException; // 是hadoop针对流处理优化的类型 import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.Long... 阅读全文

posted @ 2015-04-05 09:56 keedor 阅读(419) 评论(0) 推荐(0)

古灵阁

随笔分类 - 博客 Hadoop权威指南笔记

古灵阁

随笔分类 - 博客 Hadoop权威指南 笔记

随笔分类 - 博客 Hadoop权威指南笔记