随笔分类 -  HIVE

摘要:1.udtf介绍及编写 1.1.介绍 HIVE中udtf可以将一行转成一行多列,也可以将一行转成多行多列,使用频率较高。本篇文章通过实际案例剖析udtf的编写及使用方法和原理。阅读本篇文章前请先阅读UDF编写 测试数据 drop table if exists test; create table 阅读全文
posted @ 2020-12-23 16:53 秋华
摘要:来源:https://www.cnblogs.com/xuziyu/p/10754592.html 1 UDF的定义 UDF(User-Defined Functions)即是用户定义的hive函数。hive自带的函数并不能完全满足业务需求,这时就需要我们自定义函数了 2 UDF的分类 UDF:on 阅读全文
posted @ 2020-12-23 16:35 秋华
摘要:问题分析: hive中分区表其底层就是HDFS中的多个目录下的单个文件,hive导出数据本质是将HDFS中的文件导出 hive中的分区表,因为分区字段(静态分区)不在文件中,所以在sqoop导出的时候,无法将分区字段进行直接导出 思路:在hive中创建一个临时表,将分区表复制过去后分区字段转换为普通 阅读全文
posted @ 2020-12-21 19:28 秋华
摘要:往hive分区表中插入数据时,如果需要创建的分区很多,比如以表中某个字段进行分区存储,则需要复制粘贴修改很多sql去执行,效率低。因为hive是批处理系统,所以hive提供了一个动态分区功能,其可以基于查询参数的位置去推断分区的名称,从而建立分区。 1.创建一个单一字段分区表 1 hive> 2 c 阅读全文
posted @ 2020-12-21 12:37 秋华
摘要:http://lxw1234.com/archives/2015/07/413.htm 类似于Oracle的分析表,Hive中也提供了分析表和分区的功能,通过自动和手动分析Hive表,将Hive表的一些统计信息存储到元数据中。 表和分区的统计信息主要包括:行数、文件数、原始数据大小、所占存储大小、最 阅读全文
posted @ 2020-12-04 15:21 秋华
摘要:https://blog.csdn.net/yu0_zhang0/article/details/80697913 1 概述 我们知道Apache Hive 是构建在Apache Hadoop之上的数据仓库。有助于对大型的数据集进行读、写和管理。这也是官网介绍的第一句话,虽然简短但是却能提炼出很多东 阅读全文
posted @ 2020-12-04 15:09 秋华
摘要:一、Hive 执行过程概述 1、概述 (1) Hive 将 HQL 转换成一组操作符(Operator),比如 GroupByOperator, JoinOperator 等 (2)操作符 Operator 是 Hive 的最小处理单元 (3)每个操作符代表一个 HDFS 操作或者 MapReduc 阅读全文
posted @ 2020-11-30 19:04 秋华
摘要:1 Hadoop 压缩配置 1.1 MR 支持的压缩编码 http://google.github.io/snappy/ On a single core of a Core i7 processor in 64-bit mode, Snappy compresses at about 250 MB 阅读全文
posted @ 2020-07-23 17:31 秋华
摘要:1 系统内置函数 1)查看系统自带的函数 hive> show functions; 2)显示自带的函数的用法 hive> desc function upper; 3)详细显示自带的函数的用法 hive> desc function extended upper; 2 常用内置函数 2.1 空字段 阅读全文
posted @ 2020-07-22 20:57 秋华
摘要:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Select 查询语句语法: [WITH CommonTableExpression (, CommonTableExpression)*] (Note: Only ava 阅读全文
posted @ 2020-07-22 20:40 秋华
摘要:1 数据导入 1.1 向表中装载数据(Load) 1.语法 hive> load data [local] inpath '/opt/module/datas/student.txt' [overwrite] into table student [partition (partcol1=val1, 阅读全文
posted @ 2020-07-22 19:00 秋华
摘要:1 创建数据库 CREATE DATABASE [IF NOT EXISTS] database_name [COMMENT database_comment] [LOCATION hdfs_path] [WITH DBPROPERTIES (property_name=property_value 阅读全文
posted @ 2020-07-22 16:41 秋华
摘要:1 基本数据类型 对于 Hive 的 String 类型相当于数据库的 varchar 类型,该类型是一个可变的字符串,不过它不能声明其中最多能存储多少个字符,理论上它可以存储 2GB 的字符数。 2 集合数据类型 Hive 有三种复杂数据类型 ARRAY、MAP 和 STRUCT。ARRAY 和 阅读全文
posted @ 2020-07-22 16:38 秋华
摘要:6 启动Hive 6.1 初始化元数据库 1)登陆MySQL [atguigu@hadoop102 software]$ mysql -uroot -p000000 2)新建Hive元数据库 mysql> create database metastore; mysql> quit; 3)初始化Hi 阅读全文
posted @ 2020-07-22 15:10 秋华
摘要:1 Hive安装地址 1)Hive官网地址 http://hive.apache.org/ 2)文档查看地址 https://cwiki.apache.org/confluence/display/Hive/GettingStarted 3)下载地址 http://archive.apache.or 阅读全文
posted @ 2020-07-22 11:45 秋华
摘要:1 什么是 Hive Hive:由 Facebook 开源用于解决海量结构化日志的数据统计。 Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类 SQL 查询功能 本质是:将 HQL 转化成 MapReduce 程序 1)Hive 处理的数据存储在 HD 阅读全文
posted @ 2020-07-22 11:06 秋华