摘要: 最近看了很多如何让hadoop运行时间减少的文章,一点自己的理解,记录如下1)压缩map输出和reduce输出 压缩输出结果,不仅可以减少写数据,还可以加快map到ruduce的传输速度,有利于加快运行时间。2)不要重复创建对象 尽量在mapper或者reducer的类中去创建,不要重复的在map函数中创建对象。3)scan的参数设置 在扫描数据库表时,scan的一些属性:hbase.scan.catching 和 hbase.scan.batch 都是可以一次性的返回 多条记录,避免每次都要去访问数据库,同时要注意只设置自己需要的columnFamily就可以了,减少... 阅读全文
posted @ 2013-08-06 11:31 张兰云 阅读(312) 评论(0) 推荐(0) 编辑