摘要:
当数据量比较大,我们需要更快的完成任务,多个map和reduce进程是唯一的选择。但是如果输入文件是一个的话,map任务只能启动一个。此时bucket table是个很好的选择,通过指定CLUSTERED的字段,将文件通过hash打散成多个小文件。create table sunwg_test11(id int,name string)CLUSTERED BY(id) SORTED BY(name) INTO 32 BUCKETSROW FORMAT DELIMITEDFIELDS TERMINATED BY ‘/t’;需要特别注意的是:clustered by和sorted by不会影响数据 阅读全文
posted @ 2012-12-14 16:46
ccmaotang
阅读(606)
评论(0)
推荐(0)

浙公网安备 33010602011771号