摘要:        
最近需要为一些数据增加随机读的功能,于是采用生成HFile再bulk load进HBase的方式。运行的时候map很快完成,reduce在sort阶段花费时间很长,reducer用的是KeyValueSortReducer而且只有一个,这就形成了单reducer全排序的瓶颈。于是就想着采用TotalOrderPartitioner使得MR Job可以有多个reducer,来提高并行度解决这个瓶颈。于是动手写代码,不仅用了TotalOrderPartitioner,还使用InputSampler.RandomSampler生成分区文件。但执行时碰到问题,查资料时无意发现HFileOutputFo    阅读全文
        
            posted @ 2013-03-27 17:31
山君
阅读(1249)
评论(0)
推荐(0)
        
 
                    
                 
 
         浙公网安备 33010602011771号
浙公网安备 33010602011771号