随笔档案「2012年5月19日」：DataJoin: Replicated join using Distribu... - liangzh123

2012年5月19日

DataJoin: Replicated join using DistributedCache

摘要： Reduce-side join比较灵活但效率不高，因为在数据在reduce端才作join，在网络中需要shuffle所有数据，而且在join时又丢掉很多无用的数据。如果能在map端执行join则会有较高的效率，但map不容易同时获得需要作join的多个记录。在实际的应用中，需要作join的数据源可能一个很大一个比较小，如果此小数据源小到能够放到mapper的内存中，并把此数据源拷贝到所有的mapper机器上，那就可以在map端执行join. 这就是Replicated join.Hadoop has a mechanism called distributed cache that’s de 阅读全文

posted @ 2012-05-19 16:04 liangzh123 阅读(421) 评论(2) 推荐(0)

liangzh123

DataJoin: Replicated join using DistributedCache

导航

公告