摘要: Hive是基于Hadoop的一个数据仓库系统,在各大公司都有广泛的应用。美团数据仓库也是基于Hive搭建,每天执行近万次的Hive ETL计算流程,负责每天数百GB的数据存储和分析。Hive的稳定性和性能对我们的数据分析非常关键。 在几次升级Hive的过程中,我们遇到了一些大大小小的问题。通过向社区 阅读全文
posted @ 2016-04-15 11:32 老白条 阅读(395) 评论(0) 推荐(0) 编辑
摘要: 摘要:Hive查询生成多个map reduce job,一个map reduce job又有map,reduce,spill,shuffle,sort等多个阶段,所以针对hive查询的优化可以大致分为针对MR中单个步骤的优化, 针对MR全局的优化以及针对整个查询的优化。 一个Hive查询生成多个Ma 阅读全文
posted @ 2016-04-15 11:23 老白条 阅读(317) 评论(0) 推荐(0) 编辑
摘要: 版权声明:本文为博主原创文章,未经博主允许不得转载。 版权声明:本文为博主原创文章,未经博主允许不得转载。 目录(?)[+] 目录(?)[+] 1. Hive是什么 1) Hive是什么? 这里引用 Hive wiki 上的介绍: Hive is a data warehouse infrastru 阅读全文
posted @ 2016-04-15 11:02 老白条 阅读(277) 评论(0) 推荐(0) 编辑