随笔分类 - HIVE
摘要:窗口函数与分析函数 应用场景:(1)用于分区排序(2)动态Group By(3)Top N(4)累计计算(5)层次查询 窗口函数 FIRST_VALUE:取分组内排序后,截止到当前行,第一个值LAST_VALUE: 取分组内排序后,截止到当前行,最后一个值LEAD(col,n,DEFAULT) :用
阅读全文
摘要:Hive行列转换 1、行转列 (根据主键,进行多行合并一列) 使用函数:concat_ws(‘,’,collect_set(column)) collect_list 不去重 collect_set 去重 column 的数据类型要求是 string collect_list 不去重 collect
阅读全文
摘要:hive之于数据民工,就如同锄头之于农民伯伯。hive用的好,才能从地里(数据库)里挖出更多的数据来。 用过hive的朋友,我想或多或少都有类似的经历:一天下来,没跑几次hive,就到下班时间了。 hive在极大数据或者数据不平衡等情况下,表现往往一般,因此也出现了presto、spark-sql等
阅读全文
摘要:1、limit限制调整 一般情况下,Limit语句还是需要执行整个查询语句,然后再返回部分结果。 有一个配置属性可以开启,避免这种情况 对数据源进行抽样 hive.limit.optimize.enable=true 开启对数据源进行采样的功能 hive.limit.row.max.size 设置最
阅读全文
摘要:1、Hive的parse_url函数 parse_url(url, partToExtract[, key]) - extracts a part from a URL 解析URL字符串,partToExtract的选项包含[HOST,PATH,QUERY,REF,PROTOCOL,FILE,AUT
阅读全文
摘要:hive编程入门课程 http://wenku.baidu.com/link?url=BfyZWjz48G_6UJImzWw39OLB0sUrIYEYxoxNpaFbADUQekmOvQy4FPY1fd-YmmvjDITGyEzce9_9fpdrBhZVL3ycId1LKZzAzsSg5bThr9K
阅读全文
摘要:一、 控制hive任务中的map数: 1. 通常情况下,作业会通过input的目录产生一个或者多个map任务。 主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数不能自定
阅读全文
摘要:Hive是基于Hadoop的一个数据仓库系统,在各大公司都有广泛的应用。美团数据仓库也是基于Hive搭建,每天执行近万次的Hive ETL计算流程,负责每天数百GB的数据存储和分析。Hive的稳定性和性能对我们的数据分析非常关键。 在几次升级Hive的过程中,我们遇到了一些大大小小的问题。通过向社区
阅读全文
摘要:摘要:Hive查询生成多个map reduce job,一个map reduce job又有map,reduce,spill,shuffle,sort等多个阶段,所以针对hive查询的优化可以大致分为针对MR中单个步骤的优化, 针对MR全局的优化以及针对整个查询的优化。 一个Hive查询生成多个Ma
阅读全文
摘要:版权声明:本文为博主原创文章,未经博主允许不得转载。 版权声明:本文为博主原创文章,未经博主允许不得转载。 目录(?)[+] 目录(?)[+] 1. Hive是什么 1) Hive是什么? 这里引用 Hive wiki 上的介绍: Hive is a data warehouse infrastru
阅读全文
摘要:创建表: hive> CREATE TABLE pokes (foo INT, bar STRING); Creates a table called pokes with two columns, the first being an integer and the other a string...
阅读全文
摘要:Hive是将符合SQL语法的字符串解析生成可以在Hadoop上执行的MapReduce的工具。 使用Hive尽量按照分布式计算的一些特点来设计sql,和传统关系型数据库有区别,所以需要去掉原有关系型数据库下开发的一些固有思维。 优化时,把hive sql当做map reduce程序来读,理解hado
阅读全文
摘要:Hive学习路线图 Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN, Hcatalog, Oozie,
阅读全文
浙公网安备 33010602011771号