摘要:还是自己结贴· 1, 版本0.20.2中没有这个问题 2, 1.0.4中得自己把源码中counter部分将默认值50修改大一点数字· 再重新编译
阅读全文
摘要:运行一个hive脚本报错: [2013-02-25 14:54:00.372]Hadoop job information for Stage-1: number of mappers: 25; number of reducers: 50 [2013-02-25 14:54:00.377][201
阅读全文
摘要:关键字:Hive SELECT、ORDER BY、SORT BY、DISTRIBUTE BY、CLUSTER BY、Hive子查询、Hive虚拟列 八、Hive的查询语句SELECT 在所有的数据库系统中,SELECT语句是使用最多,也最复杂的一块,Hive中的查询语句SELECT支持的语法当然也比
阅读全文
摘要:Hive提供的几种用户交互接口中,最常用的就是命令行接口。本文简单介绍一下Hive命令行接口(Hive Command Line)及Hive交互Shell(Hive Interactive Shell)的一些使用。 七、使用Hive命令行 7.1 Hive Command Line 输入$HIVE_
阅读全文
摘要:在Hive中建好表之后,需要将数据加载进来,以便做后续查询分析,本文介绍向Hive表中加载数据的几种方式。 6.1 建表时候直接指定 如果你的数据已经在HDFS上存在,已经为结构化数据,并且数据所在的HDFS路径不需要维护,那么可以直接在建表的时候使用location指定数据所在的HDFS路径即可。
阅读全文
摘要:同关系型数据库一样,Hive中也支持视图(View)和分区(Partition),但与关系型数据库中的有所区别,本文简单介绍Hive中视图和分区的示例。 在真实业务场景下,视图的应用比较少,分区使用的非常多,因此建议对分区这块多花的时间来了解。 四、Hive的视图和分区 4.1 Hive中的视图 和
阅读全文
摘要:其实Hive的安装配置应该放在第二章来介绍,晚了些,希望对Hive初学者有用。 三、Hive的安装配置 3.1 环境需求 Hadoop Client Mysql 3.2 下载并解压Hive0.13.1安装包 下载地址:http://archive.apache.org/dist/hive/hive-
阅读全文
摘要:在前面的文章中,介绍了可以把Hive当成一个“数据库”,它也具备传统数据库的数据单元,数据库(Database/Schema)和表(Table)。 本文介绍一下Hive中的数据库(Database/Schema)和表(Table)的基础知识,由于篇幅原因,这里只是一些常用的、基础的。 二、Hive的
阅读全文
摘要:Hive函数大全–完整版 现在虽然有很多SQL ON Hadoop的解决方案,像Spark SQL、Impala、Presto等等,但就目前来看,在基于Hadoop的大数据分析平台、数据仓库中,Hive仍然是不可替代的角色。尽管它的相应 延迟大,尽管它启动MapReduce的时间相当长,但是它太方便
阅读全文
摘要:1. Hive是什么 Hive是基于Hadoop的数据仓库解决方案。由于Hadoop本身在数据存储和计算方面有很好的可扩展性和高容错性,因此使用Hive构建的数据仓库也秉承了这些特性。 这是来自官方的解释。 简单来说,Hive就是在Hadoop上架了一层SQL接口,可以将SQL翻译成MapReduc
阅读全文
摘要:前面文章介绍了Hive中是支持分区的。 关系型数据库(如Oracle)中,对分区表Insert数据时候,数据库自动会根据分区字段的值,将数据插入到相应的分区中,Hive中也提供了类似的机制,即动态分区(Dynamic Partition),只不过,使用Hive的动态分区,需要进行相应的配置。 先看一
阅读全文
摘要:删除一个数据库,默认情况下,hive不允许删除含有表的数据库,要先将数据库中的表清空才能drop,否则会报错 hive> drop database users; FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.q
阅读全文
摘要:hive bucket 桶对于每一个表(table)或者分区,Hive可以进一步组织成桶。Hive也是针对某一列进行桶的组织。Hive采用对列值哈希,然后除以桶的个数求余的方式决定该条记录存放在哪个桶当中。采用桶能够带来一些好处,比如JOIN操作。对于JOIN操作两个表有一个相同的列,如果对这两个表
阅读全文
摘要:Hive使用一段时间后Hadoop集群占用空间暴增的原因 我使用的是hive。 所有的数据也是在hive中 load data inpath 导入的 导入的数据时保存到虚拟路径 hdfs:////user/hive/warehouse 以一个表一个文件夹的形式 两天来一直面对着一个困惑 从hive中
阅读全文
摘要:一、 控制hive任务中的map数: 1. 通常情况下,作业会通过input的目录产生一个或者多个map任务。 主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数不能自定
阅读全文
摘要:背景 假设有一个学生各门课的成绩的表单,应用hive取出每科成绩前100名的学生成绩。 这个就是典型在分组取Top N的需求。 解决思路 对于取出每科成绩前100名的学生成绩,针对学生成绩表,根据学科,成绩做order by排序,然后对排序后的成绩,执行自定义函数row_number(),必须带一个
阅读全文
摘要:方式1:hive –f /root/shell/hive-script.sql(适合多语句) hive-script.sql类似于script一样,直接写查询命令就行 例如: [root@cloud4 shell]# vi hive_script3.sql select * from t1; sel
阅读全文
摘要:通过Hive提供的order by子句可以让最终的输出结果整体有序。但是因为Hive是基于Hadoop之上的,要生成这种整体有序的结果,就必须强迫Hadoop只利用一个Reduce来完成处理。这种方式的副作用就是回降低效率。 如果你不需要最终结果整体有序,你就可以使用sort by子句来进行排序。这
阅读全文
摘要:Hive进行UDF开发十分简单,此处所说UDF为Temporary的function,所以需要hive版本在0.4.0以上才可以。 一、背景:Hive是基于Hadoop中的MapReduce,提供HQL查询的数据仓库。Hive是一个很开放的系统,很多内容都支持用户定制,包括: a)文件格式:Text
阅读全文
摘要:在最初使用 hive ,应该说上手还是挺快的。 Hive 提供的类 SQL 语句与 mysql 语句极为相似,语法上有大量相同的地方,这给我们上手带来了很大的方便,但是要得心应手地写好这些语句,还需要对 hive 有较好的了解,才能结合 hive 特色写出精妙的语句。 关于 hive 语言的详细语法
阅读全文