随笔分类 -  hive

摘要:背景 在刚使用hive的过程中,碰到过很多问题,任务经常需要运行7,8个小时甚至更久,在此记录一下这个过程中,我的一些收获 join长尾 背景 SQL在Join执行阶段会将Join Key相同的数据分发到同一个执行Instance上处理。如果某个Key上的数据量比较多,会导致该Instance执行时 阅读全文
posted @ 2017-05-18 17:02 段星星 阅读(15406) 评论(0) 推荐(0)
摘要:1. order by Hive中的order by跟传统的sql语言中的order by作用是一样的,会对查询的结果做一次全局排序,所以说,只有hive的sql中制定了order by所有的数据都会到同一个reducer进行处理(不管有多少map,也不管文件有多少的block只会启动一个reduc 阅读全文
posted @ 2016-05-05 15:20 段星星 阅读(8711) 评论(1) 推荐(1)
摘要:前言bucket table(桶表)是对数据进行哈希取值,然后放到不同文件中存储应用场景当数据量比较大,我们需要更快的完成任务,多个map和reduce进程是唯一的选择。但是如果输入文件是一个的话,map任务只能启动一个。此时bucket table是个很好的选择,通过指定CLUSTERED的字段,... 阅读全文
posted @ 2016-01-25 11:21 段星星 阅读(706) 评论(0) 推荐(0)
摘要:有一张很大的表:TRLOG该表大概有2T左右TRLOG:CREATETABLETRLOG(PLATFORMstring,USER_IDint,CLICK_TIMEstring,CLICK_URLstring)rowformatdelimitedfieldsterminatedby'\t';数据:PL... 阅读全文
posted @ 2015-11-04 17:45 段星星 阅读(673) 评论(0) 推荐(0)
摘要:1. 假设我们在hive中有两张表,其中一张表是存用户基本信息,另一张表是存用户的地址信息等,表数据假设如下:user_basic_info:idname1a2b3c4duser_address;nameaddressaadd1aadd2badd3cadd4dadd5我们可以看到同一个用户不止一个地... 阅读全文
posted @ 2015-11-04 17:42 段星星 阅读(3554) 评论(0) 推荐(0)