随笔分类 - HIVE
摘要:当前HIVE 不支持 not in 中包含查询子句的语法,形如如下的HQ语句是不被支持的:查询在key字段在a表中,但不在b表中的数据select a.key from a where key not in(select key from b) 该语句在hive中不支持可以通过left outer join进行查询,(假设B表中包含另外的一个字段 key1select a.key from a left outer join b on a.key=b.key where b.key1 is null
阅读全文
摘要:作为数据分析中经常进行的join 操作,传统DBMS 数据库已经将各种算法优化到了极致,而对于hadoop 使用的mapreduce 所进行的join 操作,去年开始也是有各种不同的算法论文出现,讨论各种算法的适用场景和取舍条件,本文讨论hive 中出现的几种join 优化,然后讨论其他算法实现,希望能给使用hadoop 做数据分析的开发人员提供一点帮助.Facebook 今年在yahoo 的hadoop summit 大会上做了一个关于最近两个版本的hive 上所做的一些join 的优化,其中主要涉及到hive 的几个关键特性: 值分区 , hash 分区 , map join , inde
阅读全文
摘要:Hive的存储是建立在Hadoop文件系统之上的,Hive没有专门的数据存储格式,也不能为数据建立索引,用户可以自由的组织Hive中的表,所以用户可以选择将数据存储为纯文本文件。在hive建表的过程中,可以在CREATE TABLE 后用STORED AS <FILE_FORMAT> 来指定将要存储的文件格式,其中FILE_FORMAT可选项包含TEXTFILE , SEQUENCEFILE , RCFILE 和自定义格式。1 CREATE EXTERNAL TABLE MYTEST(num INT, name STRING) 2 ROW FORMAT DELIMITED FIEL
阅读全文

浙公网安备 33010602011771号