2012 年 12月 14 日随笔档案 - ccmaotang

2012年12月14日

hive中的bucket table (输入文件是一个的话，map任务只能启动一个 ,给力啊)

摘要：当数据量比较大，我们需要更快的完成任务，多个map和reduce进程是唯一的选择。但是如果输入文件是一个的话，map任务只能启动一个。此时bucket table是个很好的选择，通过指定CLUSTERED的字段，将文件通过hash打散成多个小文件。create table sunwg_test11(id int,name string)CLUSTERED BY(id) SORTED BY(name) INTO 32 BUCKETSROW FORMAT DELIMITEDFIELDS TERMINATED BY ‘/t’;需要特别注意的是：clustered by和sorted by不会影响数据阅读全文

posted @ 2012-12-14 16:46 ccmaotang 阅读(606) 评论(0) 推荐(0)

虚怀若谷

梳理，归纳，总结。建立一套适合自己的知识体系结构

公告