DataJoin: Replicated join using DistributedCache
摘要:
Reduce-side join比较灵活但效率不高,因为在数据在reduce端才作join,在网络中需要shuffle所有数据,而且在join时又丢掉很多无用的数据。如果能在map端执行join则会有较高的效率,但map不容易同时获得需要作join的多个记录。在实际的应用中,需要作join的数据源可能一个很大一个比较小,如果此小数据源小到能够放到mapper的内存中,并把此数据源拷贝到所有的mapper机器上,那就可以在map端执行join. 这就是Replicated join.Hadoop has a mechanism called distributed cache that’s de 阅读全文
posted @ 2012-05-19 16:04 liangzh123 阅读(420) 评论(2) 推荐(0)
浙公网安备 33010602011771号