摘要: 处理小文件的时候,可以通过org.apache.hadoop.io.SequenceFile.Writer类将所有文件写出到一个seq文件中。 大致流程如下: 实现代码: 注意事项: 我原本的逻辑是放到map函数中,将所有文件通过Writer写到HDFS中,但是map在整个mr的执行中被调用的次数是 阅读全文
posted @ 2016-03-21 09:44 无头咸鱼 阅读(775) 评论(0) 推荐(0)