摘要: 当前HIVE 不支持 not in 中包含查询子句的语法,形如如下的HQ语句是不被支持的:查询在key字段在a表中,但不在b表中的数据select a.key from a where key not in(select key from b) 该语句在hive中不支持可以通过left outer join进行查询,(假设B表中包含另外的一个字段 key1select a.key from a left outer join b on a.key=b.key where b.key1 is null 阅读全文
posted @ 2012-10-10 17:28 ancientmoon 阅读(474) 评论(0) 推荐(0)
摘要: 作为数据分析中经常进行的join 操作,传统DBMS 数据库已经将各种算法优化到了极致,而对于hadoop 使用的mapreduce 所进行的join 操作,去年开始也是有各种不同的算法论文出现,讨论各种算法的适用场景和取舍条件,本文讨论hive 中出现的几种join 优化,然后讨论其他算法实现,希望能给使用hadoop 做数据分析的开发人员提供一点帮助.Facebook 今年在yahoo 的hadoop summit 大会上做了一个关于最近两个版本的hive 上所做的一些join 的优化,其中主要涉及到hive 的几个关键特性: 值分区 , hash 分区 , map join , inde 阅读全文
posted @ 2012-10-10 14:54 ancientmoon 阅读(372) 评论(0) 推荐(0)