随笔分类 -  Hive学习

摘要:背景 原本自己都是使用笔记本的虚拟机来搭建大数据环境,调试代码,运行项目。但自己的笔记本是13寸的,屏幕很小,经常由于要打开多个终端,同时辅以网页,造成小小的屏幕里有很多窗口,体验极差。 有想过通过外接大显示屏来解决,但显示屏固定连接了自己的游戏本。等于宿舍里操作游戏本,实验室操作台式机,平时背着轻 阅读全文
posted @ 2020-07-03 15:07 Tanglement 阅读(665) 评论(0) 推荐(1)
摘要:大家可以参考厦门大学数据库实验室这篇博客 虽然说,建立外部表会使用LOCATION指定位置,而建立内部表不使用LOCATION,会默认保存在/hive/warehouse/下,自动生成一个目录,目录名为表名。 但是通过一系列对比,我们可以发现,这两个参数之间是没有关系的。 我们可以建立外部表,不使用 阅读全文
posted @ 2020-06-12 16:56 Tanglement 阅读(1970) 评论(0) 推荐(0)
摘要:抓取 Hive中对于某些情况的查询可以不必使用MapReduce计算。例如SELECT,Hive可以简单读取对应的存储目录的文件信息。 可以设置一些参数,全局查找、字段查找、limit查找等都不使用MapReduce。或者执行查询语句都执行MapReduce。 本地模式 在Hive处理的输入数据量很 阅读全文
posted @ 2020-03-15 18:52 Tanglement 阅读(162) 评论(0) 推荐(0)
摘要:自定义函数 用户可以通过自定义UDF来方便的扩展(user defined function)。根据用户自定义函数类别,分别为一下三种: UDF,一进一出 UDAF,聚集函数,多进一出 UDTF,一进多出 编程步骤 1. 继承org.apache.hadoop.hive.ql.UDF 2. 实现ev 阅读全文
posted @ 2020-03-15 10:47 Tanglement 阅读(365) 评论(0) 推荐(0)
摘要:之前有操作过HBase和Hive的案例,将30w条数据从Hive导入HBase。使用sqoop可以快速简单做到,但是在最新版HBase2.0与最新版Hive3.0之间,旧版sqoop不行,因此当时使用了JDBC来连接两者,达到数据导出的目的。 HBase与Hive的对比 Hive 作为数据仓库,Hi 阅读全文
posted @ 2020-03-14 17:57 Tanglement 阅读(245) 评论(0) 推荐(0)
摘要:数据操作 加载数据 LOAD DATA 加载数据 LOCAL 本地数据,不加LOCAL就是分布式文件系统数据 OVERWRITE表示覆盖表中已有数据,否则表示追加 通过查询语言插入数据 这里使用了OVERWRITE关键字,之前分区内容会被覆盖掉。这是一次插入。 以下为多次插入,对多个分区目录插入数据 阅读全文
posted @ 2020-03-10 11:05 Tanglement 阅读(698) 评论(0) 推荐(0)
摘要:数据定义 创建数据库 Hive不支持行级插入操作、更新操作和删除操作,也不支持事务。HiveQL和MySQL比较相似。 创建Hive的数据库,数据库的文件目录名以.db结尾。 可以通过以下命令来修改默认的位置: 查看数据库信息,会显示数据库文件目录位置路径 创建表 创建表,COMMENT信息,LOC 阅读全文
posted @ 2020-03-09 18:56 Tanglement 阅读(185) 评论(0) 推荐(0)
摘要:Hive综述 Hive:用于解决海量结构化日志的数据统计 基于Hadoop的数据仓库工具,将结构化的数据文件映射为一张表,并提供类SQL的查询功能 本质是把HiveQL转化为Mapreduce程序 Hive不支持记录级别的更新、插入和删除操作 Hive查询延时严重,因为要启动mapreduce任务 阅读全文
posted @ 2020-03-09 14:21 Tanglement 阅读(247) 评论(0) 推荐(0)
摘要:下载压缩包,解压 配置环境变量 修改/hive/conf下的hive site.xml 设置元数据存储的信息,以及连接账户密码为hive 阅读全文
posted @ 2020-03-08 13:38 Tanglement 阅读(103) 评论(0) 推荐(0)
摘要:引自[https://blog.csdn.net/weixin_43192721/article/details/88420401] 1. 删除效果不一样 内部表:删除元数据和文件 外部表:删除元数据,不删除文件 所以ETL时,用内部表作为中间结果好一点 2. 内部表由hive管理,外部表由hdfs 阅读全文
posted @ 2020-02-21 14:42 Tanglement 阅读(217) 评论(0) 推荐(0)