MapReudce中常见join的方案

两表join在业务开发中是经常用到，了解了大数据join的原理，对于开发有很大的好处。

1、reduce side join

reduce side join是一种简单的join的方法，具体思想如下：
顾名思义就在reduce进行join，
在map阶段，map同时读取两文件file1，file2，为了区分key/value需要对两文件进行打标签，比如：tag=0 表示file1 tag=1 表示file2，
map阶段主要的任务就是对不同的数据打上不同的标签。
在reduce阶段，reduce函数会从file1，file2中获取相同key的value list，然后对相同key的file1和file2 进行join，即reduce 阶段进行实际的连接操作。

http://blog.csdn.net/huashetianzu/article/details/7819244

2、map side join

顾名思义就是在map端进行join，因为reduce side join 是非常低效的，需要在shuffle的过程中进行大量的数据传输，因为map阶段不能获取到所有需要的join的字段，即：同一个key对应的字段可能位于不同的map中。
map side join 一般是指需要一张大表，一张小表，小表可以直接放到内存中，这样我们可以将小表复制到各个map端进行join，每个map端都会存一份，一般在内存中(比如hash table)然后只扫描大表，对于大表中的每一条key/value，在小表中找到相同key的记录，如果有则输出。
http://blog.csdn.net/huashetianzu/article/details/7821674

3、semi join

semi join 也叫半连接，这个是从分布式数据库中借鉴过来的。产生的动机呢，主要是reduce side join 跨机器传输数据量非常大，这成了join的一个瓶颈，如果能在map端过滤掉不会参加join操作的数据，可以大大的节省了IO。

实现方法：先选取一张小表，假设是file1，把参与join的key抽取出来，保存在file3中，file3文件一般很小，可以放到内存中，这样把file3拷贝到每个taskTracker中，然后将file2中不在file3中的数据过滤掉，剩下的就与reduce side join相同。
http://blog.csdn.net/huashetianzu/article/details/7823326

4、reduce side join + BloomFilter

这个也是semi join的一个延伸，主要是有时sem join抽取出来的key在内存中依然存放不下，这时可以用BloomFilter来节省空间，
BloomFilter最常见的作用是:判断某个元素是否在一个集合里面，通过判断元素是否存在来过滤，
因而可将小表中的key保存到BloomFilter中，根据BloomFilter算法，在map阶段过滤大表，可能有一些不在小表中的记录没有被过滤掉(但是在小表中的记录一定不会过滤掉)，这样只是增加了少量的IO。
http://blog.csdn.net/jiaomeng/article/details/1495500
http://baike.baidu.com/link?url=xLbNuk12FJSSlzLRmcWpQ1OaPbPYIvVUaackA6d_N77kYdyEqYVWUsgXbmo65iVotcnzODV_CvbuMQqbBtOFDLhfxccE4qUUWNTN589LrTK

posted on 2016-11-22 14:53 无尽的缥缈阅读(586) 评论(0) 收藏举报