摘要: hive有textFile,SequenceFile,RCFile三种文件格式。其中textfile为默认格式,建表时不指定默认为这个格式,导入数据时会直接把数据文件拷贝到hdfs上不进行处理。SequenceFile,RCFile格式的表不能直接从本地文件导入数据,数据要先导入到textfile格式的表中,然后再从textfile表中用insert导入到SequenceFile,RCFile表中。写道create table zone0000tf(ra int, dec int, mag int) row format delimited fields terminated by ' 阅读全文
posted @ 2012-06-14 18:07 ccmaotang 阅读(1234) 评论(0) 推荐(0)
摘要: link:http://blog.csdn.net/xqy1522/article/details/6699740今天遇到一个hive的问题,如下hive sql:select f.a,f.b from A t join B f on ( f.a=t.a and f.ftime=20110802)该语句中B表有30亿行记录,A表只有100行记录,而且B表中数据倾斜特别严重,有一个key上有15亿行记录,在运行过程中特别的慢,而且在reduece的过程中遇有内存不够而报错。为了解决用户的这个问题,考虑使用mapjoin,mapjoin的原理:MAPJION会把小表全部读入内存中,在map阶段直接 阅读全文
posted @ 2012-06-14 13:48 ccmaotang 阅读(820) 评论(0) 推荐(0)