Hive - 文章分类(第2页) - 1130136248

Exceeded limits on number of groups in counters

摘要：还是自己结贴· 1，版本0.20.2中没有这个问题 2， 1.0.4中得自己把源码中counter部分将默认值50修改大一点数字· 再重新编译阅读全文

posted @ 2016-05-21 23:43 1130136248 阅读(118) 评论(0) 推荐(0)

hive脚本报错，mark【 Error: Exceeded limits on number of counters - Counters=120 Limit=120】

摘要：运行一个hive脚本报错： [2013-02-25 14:54:00.372]Hadoop job information for Stage-1: number of mappers: 25; number of reducers: 50 [2013-02-25 14:54:00.377][201 阅读全文

posted @ 2016-05-21 21:11 1130136248 阅读(364) 评论(0) 推荐(0)

[一起学Hive]之九-Hive的查询语句SELECT

摘要：关键字：Hive SELECT、ORDER BY、SORT BY、DISTRIBUTE BY、CLUSTER BY、Hive子查询、Hive虚拟列八、Hive的查询语句SELECT 在所有的数据库系统中，SELECT语句是使用最多，也最复杂的一块，Hive中的查询语句SELECT支持的语法当然也比阅读全文

posted @ 2016-05-21 19:38 1130136248 阅读(1268) 评论(0) 推荐(0)

[一起学Hive]之八-使用Hive命令行

摘要：Hive提供的几种用户交互接口中，最常用的就是命令行接口。本文简单介绍一下Hive命令行接口(Hive Command Line)及Hive交互Shell(Hive Interactive Shell)的一些使用。七、使用Hive命令行 7.1 Hive Command Line 输入$HIVE_ 阅读全文

posted @ 2016-05-21 19:37 1130136248 阅读(4355) 评论(0) 推荐(0)

[一起学Hive]之七-向Hive表中加载数据

摘要：在Hive中建好表之后，需要将数据加载进来，以便做后续查询分析，本文介绍向Hive表中加载数据的几种方式。 6.1 建表时候直接指定如果你的数据已经在HDFS上存在，已经为结构化数据，并且数据所在的HDFS路径不需要维护，那么可以直接在建表的时候使用location指定数据所在的HDFS路径即可。阅读全文

posted @ 2016-05-21 19:32 1130136248 阅读(479) 评论(0) 推荐(0)

[一起学Hive]之五-Hive的视图和分区

摘要：同关系型数据库一样，Hive中也支持视图(View)和分区(Partition)，但与关系型数据库中的有所区别，本文简单介绍Hive中视图和分区的示例。在真实业务场景下，视图的应用比较少，分区使用的非常多，因此建议对分区这块多花的时间来了解。四、Hive的视图和分区 4.1 Hive中的视图和阅读全文

posted @ 2016-05-21 19:16 1130136248 阅读(712) 评论(0) 推荐(0)

[一起学Hive]之四-Hive的安装配置

摘要：其实Hive的安装配置应该放在第二章来介绍，晚了些，希望对Hive初学者有用。三、Hive的安装配置 3.1 环境需求 Hadoop Client Mysql 3.2 下载并解压Hive0.13.1安装包下载地址：http://archive.apache.org/dist/hive/hive- 阅读全文

posted @ 2016-05-21 19:15 1130136248 阅读(306) 评论(0) 推荐(0)

[一起学Hive]之三–Hive中的数据库(Database)和表(Table)

摘要：在前面的文章中，介绍了可以把Hive当成一个“数据库”，它也具备传统数据库的数据单元，数据库（Database/Schema）和表（Table）。本文介绍一下Hive中的数据库（Database/Schema）和表（Table）的基础知识，由于篇幅原因，这里只是一些常用的、基础的。二、Hive的阅读全文

posted @ 2016-05-21 19:09 1130136248 阅读(874) 评论(0) 推荐(0)

[一起学Hive]之二–Hive函数大全-完整版

摘要：Hive函数大全–完整版现在虽然有很多SQL ON Hadoop的解决方案，像Spark SQL、Impala、Presto等等，但就目前来看，在基于Hadoop的大数据分析平台、数据仓库中，Hive仍然是不可替代的角色。尽管它的相应延迟大，尽管它启动MapReduce的时间相当长，但是它太方便阅读全文

posted @ 2016-05-21 18:57 1130136248 阅读(639) 评论(0) 推荐(0)

[一起学Hive]之一–Hive概述，Hive是什么

摘要：1. Hive是什么 Hive是基于Hadoop的数据仓库解决方案。由于Hadoop本身在数据存储和计算方面有很好的可扩展性和高容错性，因此使用Hive构建的数据仓库也秉承了这些特性。这是来自官方的解释。简单来说，Hive就是在Hadoop上架了一层SQL接口，可以将SQL翻译成MapReduc 阅读全文

posted @ 2016-05-21 18:54 1130136248 阅读(526) 评论(0) 推荐(0)

[一起学Hive]之六-Hive的动态分区

摘要：前面文章介绍了Hive中是支持分区的。关系型数据库（如Oracle）中，对分区表Insert数据时候，数据库自动会根据分区字段的值，将数据插入到相应的分区中，Hive中也提供了类似的机制，即动态分区(Dynamic Partition)，只不过，使用Hive的动态分区，需要进行相应的配置。先看一阅读全文

posted @ 2016-05-21 18:32 1130136248 阅读(7445) 评论(3) 推荐(2)

hive hql命令 drop cascade 强制删除含有表的数据库

摘要：删除一个数据库，默认情况下，hive不允许删除含有表的数据库，要先将数据库中的表清空才能drop，否则会报错 hive> drop database users; FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.q 阅读全文

posted @ 2016-05-21 17:04 1130136248 阅读(1235) 评论(0) 推荐(0)

Hive关于桶的详细解释，在此共享

摘要：hive bucket 桶对于每一个表（table）或者分区，Hive可以进一步组织成桶。Hive也是针对某一列进行桶的组织。Hive采用对列值哈希，然后除以桶的个数求余的方式决定该条记录存放在哪个桶当中。采用桶能够带来一些好处，比如JOIN操作。对于JOIN操作两个表有一个相同的列，如果对这两个表阅读全文

posted @ 2016-04-04 22:55 1130136248 阅读(271) 评论(0) 推荐(0)

Hive应用一段时间后Hadoop集群占用空间暴增的原因

摘要：Hive使用一段时间后Hadoop集群占用空间暴增的原因我使用的是hive。所有的数据也是在hive中 load data inpath 导入的导入的数据时保存到虚拟路径 hdfs:////user/hive/warehouse 以一个表一个文件夹的形式两天来一直面对着一个困惑从hive中阅读全文

posted @ 2016-04-04 16:27 1130136248 阅读(1821) 评论(0) 推荐(0)

Hive 设置map 和 reduce 的个数

摘要：一、控制hive任务中的map数: 1. 通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到，该参数不能自定阅读全文

posted @ 2016-04-04 15:38 1130136248 阅读(20006) 评论(0) 推荐(4)

Hive中分组取前N个值

摘要：背景假设有一个学生各门课的成绩的表单，应用hive取出每科成绩前100名的学生成绩。这个就是典型在分组取Top N的需求。解决思路对于取出每科成绩前100名的学生成绩，针对学生成绩表，根据学科，成绩做order by排序,然后对排序后的成绩，执行自定义函数row_number(),必须带一个阅读全文

posted @ 2016-04-04 15:36 1130136248 阅读(5389) 评论(0) 推荐(0)

Hive命令的3种调用方式

摘要：方式1：hive –f /root/shell/hive-script.sql（适合多语句） hive-script.sql类似于script一样，直接写查询命令就行例如： [root@cloud4 shell]# vi hive_script3.sql select * from t1; sel 阅读全文

posted @ 2016-04-04 15:36 1130136248 阅读(734) 评论(0) 推荐(0)

Hive总结（十二）Hive查询进阶

摘要：通过Hive提供的order by子句可以让最终的输出结果整体有序。但是因为Hive是基于Hadoop之上的，要生成这种整体有序的结果，就必须强迫Hadoop只利用一个Reduce来完成处理。这种方式的副作用就是回降低效率。如果你不需要最终结果整体有序，你就可以使用sort by子句来进行排序。这阅读全文

posted @ 2016-04-04 15:35 1130136248 阅读(350) 评论(0) 推荐(0)

Hive总结（十一）Hive自定义函数UDF

摘要：Hive进行UDF开发十分简单，此处所说UDF为Temporary的function，所以需要hive版本在0.4.0以上才可以。一、背景：Hive是基于Hadoop中的MapReduce，提供HQL查询的数据仓库。Hive是一个很开放的系统，很多内容都支持用户定制，包括： a）文件格式：Text 阅读全文

posted @ 2016-04-04 15:34 1130136248 阅读(197) 评论(0) 推荐(0)

Hive总结（十）Hive 输入输出适配类（输出CSV,XML）

摘要：在最初使用 hive ，应该说上手还是挺快的。 Hive 提供的类 SQL 语句与 mysql 语句极为相似，语法上有大量相同的地方，这给我们上手带来了很大的方便，但是要得心应手地写好这些语句，还需要对 hive 有较好的了解，才能结合 hive 特色写出精妙的语句。关于 hive 语言的详细语法阅读全文

posted @ 2016-04-04 15:33 1130136248 阅读(2419) 评论(0) 推荐(0)

文章分类 - Hive