摘要:
Hadoop 框架自带的 InputFormat 类型不能满足所有应用场景,需要自定义 InputFormat 来解决实际问题。 无论 HDFS 还是 MapReduce,在处理小文件时效率都非常低,但又难免面临处理大量小文件的场景,此时,就需要有相应解决方案。可以自定义 InputFormat 实 阅读全文
posted @ 2019-04-30 14:55
江湖小小白
阅读(766)
评论(0)
推荐(0)
摘要:
在使用 BytesWritable 进行小文件合并时,发现长度与原类容不一致,会多出一些空格 测试代码 结果,看到多出了一个空格 查看 BytesWritable 源码,发现复制后数组大小会被处理,真正存储类容长度的为 size 属性 既然知道长度,在转换时设置上就好了 http://hadoop. 阅读全文
posted @ 2019-04-30 14:36
江湖小小白
阅读(601)
评论(0)
推荐(0)

浙公网安备 33010602011771号