武略文韬

2013年10月19日 #

Hadoop 中的两表join（转载自——Alex的个人Blog）

摘要： Hadoop 中的两表join作为数据分析中经常进行的join 操作，传统DBMS 数据库已经将各种算法优化到了极致，而对于hadoop 使用的mapreduce 所进行的join 操作，去年开始也是有各种不同的算法论文出现，讨论各种算法的适用场景和取舍条件，本文讨论hive 中出现的几种join 优化，然后讨论其他算法实现，希望能给使用hadoop 做数据分析的开发人员提供一点帮助.Facebook 今年在yahoo 的hadoop summit 大会上做了一个关于最近两个版本的hive 上所做的一些join 的优化，其中主要涉及到hive 的几个关键特性: 值分区 , hash 分区 , 阅读全文

posted @ 2013-10-19 21:26 武略文韬阅读(263) 评论(0) 推荐(0)

导航

公告

Hadoop 中的两表join（转载自——Alex的个人Blog）