随笔分类 - hive
摘要:背景 在刚使用hive的过程中,碰到过很多问题,任务经常需要运行7,8个小时甚至更久,在此记录一下这个过程中,我的一些收获 join长尾 背景 SQL在Join执行阶段会将Join Key相同的数据分发到同一个执行Instance上处理。如果某个Key上的数据量比较多,会导致该Instance执行时
阅读全文
摘要:1. order by Hive中的order by跟传统的sql语言中的order by作用是一样的,会对查询的结果做一次全局排序,所以说,只有hive的sql中制定了order by所有的数据都会到同一个reducer进行处理(不管有多少map,也不管文件有多少的block只会启动一个reduc
阅读全文
摘要:前言bucket table(桶表)是对数据进行哈希取值,然后放到不同文件中存储应用场景当数据量比较大,我们需要更快的完成任务,多个map和reduce进程是唯一的选择。但是如果输入文件是一个的话,map任务只能启动一个。此时bucket table是个很好的选择,通过指定CLUSTERED的字段,...
阅读全文
摘要:有一张很大的表:TRLOG该表大概有2T左右TRLOG:CREATETABLETRLOG(PLATFORMstring,USER_IDint,CLICK_TIMEstring,CLICK_URLstring)rowformatdelimitedfieldsterminatedby'\t';数据:PL...
阅读全文
摘要:1. 假设我们在hive中有两张表,其中一张表是存用户基本信息,另一张表是存用户的地址信息等,表数据假设如下:user_basic_info:idname1a2b3c4duser_address;nameaddressaadd1aadd2badd3cadd4dadd5我们可以看到同一个用户不止一个地...
阅读全文

浙公网安备 33010602011771号