摘要: MapReduce执行步骤如下 1、Mapper任务处理 1.1:读取输入文件内容,将每一行解析成key、value对提供给Mapper类的map函数使用,每个键值对调用一次map函数。 1.2:在Mapper类的map函数中使用自定义的业务逻辑,对输入key、value处理并转换成新的... 阅读全文
posted @ 2013-02-03 21:53 孟尧 阅读(1537) 评论(0) 推荐(0)
摘要: 1 SequenceFile可以处理hdfs上大量小文件,它可以作为大量小文件的容器。HDFS和MapReduce是针对大文件优化的,所以通过SequenceFile类型将小文件包装起来可以获得更高效的存储和处理。存储 2 在SequenceFile中的键和值并不一定是Writable类型... 阅读全文
posted @ 2013-02-03 10:41 孟尧 阅读(696) 评论(0) 推荐(0)
摘要: 1 package com.mengyao.hadoop.hdfs; 2 3 import java.io.IOException; 4 5 import org.apache.hadoop.conf.Configuration; 6 import org.apache.hadoop.fs.P... 阅读全文
posted @ 2013-02-03 10:17 孟尧 阅读(411) 评论(1) 推荐(0)
摘要: 1 package com.mengyao.hadoop.hdfs; 2 3 import java.io.File; 4 import java.io.IOException; 5 6 import org.apache.commons.io.FileUtils; 7 import org.... 阅读全文
posted @ 2013-02-03 10:06 孟尧 阅读(702) 评论(1) 推荐(0)