hive - 随笔分类 - 段星星

HiveSql调优经验

摘要：背景在刚使用hive的过程中，碰到过很多问题，任务经常需要运行7,8个小时甚至更久，在此记录一下这个过程中，我的一些收获 join长尾背景 SQL在Join执行阶段会将Join Key相同的数据分发到同一个执行Instance上处理。如果某个Key上的数据量比较多，会导致该Instance执行时阅读全文

posted @ 2017-05-18 17:02 段星星阅读(15406) 评论(0) 推荐(0)

[转载]hive中order by,sort by, distribute by, cluster by作用以及用法

摘要：1. order by Hive中的order by跟传统的sql语言中的order by作用是一样的，会对查询的结果做一次全局排序，所以说，只有hive的sql中制定了order by所有的数据都会到同一个reducer进行处理（不管有多少map，也不管文件有多少的block只会启动一个reduc 阅读全文

posted @ 2016-05-05 15:20 段星星阅读(8711) 评论(1) 推荐(1)

hive中的bucket table

摘要：前言bucket table(桶表)是对数据进行哈希取值，然后放到不同文件中存储应用场景当数据量比较大，我们需要更快的完成任务，多个map和reduce进程是唯一的选择。但是如果输入文件是一个的话，map任务只能启动一个。此时bucket table是个很好的选择，通过指定CLUSTERED的字段，... 阅读全文

posted @ 2016-01-25 11:21 段星星阅读(706) 评论(0) 推荐(0)

转：hive面试题

摘要：有一张很大的表：TRLOG该表大概有2T左右TRLOG：CREATETABLETRLOG(PLATFORMstring,USER_IDint,CLICK_TIMEstring,CLICK_URLstring)rowformatdelimitedfieldsterminatedby'\t';数据：PL... 阅读全文

posted @ 2015-11-04 17:45 段星星阅读(673) 评论(0) 推荐(0)

转：hive-列转行和行转列

摘要：1. 假设我们在hive中有两张表，其中一张表是存用户基本信息，另一张表是存用户的地址信息等，表数据假设如下：user_basic_info:idname1a2b3c4duser_address;nameaddressaadd1aadd2badd3cadd4dadd5我们可以看到同一个用户不止一个地... 阅读全文

posted @ 2015-11-04 17:42 段星星阅读(3554) 评论(0) 推荐(0)

段星星

随笔分类 - hive

公告