随笔分类 -  博客 Hadoop权威指南 笔记

摘要:distcp并行复制 Hadoop存档 阅读全文
posted @ 2015-04-06 11:13 keedor 阅读(134) 评论(0) 推荐(0)
摘要:Hadoop是一次写入, 多次读取,因为这种被认为是最高效的访问模式. HDFS为高数据吞吐量优化, 高时间延迟. 对于低延迟, HBase是更好的选择. 大量的小文件不适合HDFS: namenode将文件系统的元数据存储在内存中,包括文件,目录,数据块的存储信息,如果有大量的小文件,那么这些存储信息占了很大的内存,NameNode有可能没有这么大的内存来装这么多的信息 ... 阅读全文
posted @ 2015-04-05 17:13 keedor 阅读(268) 评论(0) 推荐(0)
摘要:什么是Hadoop Streaming Hadoop提供的一个编程工具,允许用户使用任何可执行文件或脚本作为mapper和Reducer 一个例子(shell简洁版本) $HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/contrib/streaming/hadoop-*-streaming.jar \ -input myInputDirs \... 阅读全文
posted @ 2015-04-05 10:26 keedor 阅读(374) 评论(0) 推荐(0)
摘要:使用MapReduce import java.io.IOException; // 是hadoop针对流处理优化的类型 import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.Long... 阅读全文
posted @ 2015-04-05 09:56 keedor 阅读(414) 评论(0) 推荐(0)