随笔分类 -  Hive

摘要:一、Hadoop 框架计算特性 1、数据量大不是问题,数据倾斜是个问题 2、jobs 数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次 汇总,产生十几个 jobs,耗时很长。原因是 map reduce 作业初始化的时间是比较长的 3、sum,count,max,min 等 阅读全文
posted @ 2018-04-15 15:46 扎心了,老铁 阅读(19557) 评论(3) 推荐(12) 编辑
摘要:一、Hive 执行过程概述 1、概述 (1) Hive 将 HQL 转换成一组操作符(Operator),比如 GroupByOperator, JoinOperator 等 (2)操作符 Operator 是 Hive 的最小处理单元 (3)每个操作符代表一个 HDFS 操作或者 MapReduc 阅读全文
posted @ 2018-04-15 15:44 扎心了,老铁 阅读(11350) 评论(2) 推荐(5) 编辑
摘要:1、什么是数据倾斜? 由于数据分布不均匀,造成数据大量的集中到一点,造成数据热点 2、Hadoop 框架的特性 A、不怕数据大,怕数据倾斜 B、Jobs 数比较多的作业运行效率相对比较低,如子查询比较多 C、 sum,count,max,min 等聚集函数,通常不会有数据倾斜问题 3、主要表现 任务 阅读全文
posted @ 2018-04-15 15:41 扎心了,老铁 阅读(32995) 评论(2) 推荐(4) 编辑
摘要:一、Hive的命令行 1、Hive支持的一些命令 Command Description quit Use quit or exit to leave the interactive shell. set key=value Use this to set value of particular c 阅读全文
posted @ 2018-04-15 15:40 扎心了,老铁 阅读(15043) 评论(0) 推荐(0) 编辑
摘要:概述 GROUPING SETS,GROUPING__ID,CUBE,ROLLUP 这几个分析函数通常用于OLAP中,不能累加,而且需要根据不同维度上钻和下钻的指标统计,比如,分小时、天、月的UV数。 数据准备 数据格式 创建表 玩一玩GROUPING SETS和GROUPING__ID 说明 在一 阅读全文
posted @ 2018-04-15 15:37 扎心了,老铁 阅读(15103) 评论(1) 推荐(4) 编辑
摘要:数据准备 数据格式 cookie4.txt 创建表 玩一玩LAG 说明 LAG(col,n,DEFAULT) 用于统计窗口内往上第n行值 第一个参数为列名,第二个参数为往上第n行(可选,默认为1),第三个参数为默认值(当往上第n行为NULL时候,取默认值,如不指定,则为NULL) 查询语句 查询结果 阅读全文
posted @ 2018-04-15 15:33 扎心了,老铁 阅读(33697) 评论(1) 推荐(5) 编辑
摘要:这两个序列分析函数不是很常用,这里也练习一下。 数据准备 数据格式 cookie3.txt 创建表 玩一玩CUME_DIST 说明 –CUME_DIST :小于等于当前值的行数/分组内总行数 查询语句 比如,统计小于等于当前薪水的人数,所占总人数的比例 查询结果 结果说明 玩一玩PERCENT_RA 阅读全文
posted @ 2018-04-11 20:13 扎心了,老铁 阅读(10683) 评论(0) 推荐(0) 编辑
摘要:概述 本文中介绍前几个序列函数,NTILE,ROW_NUMBER,RANK,DENSE_RANK,下面会一一解释各自的用途。 注意: 序列函数不支持WINDOW子句。(ROWS BETWEEN) 数据准备 数据格式 创建表 玩一玩NTILE 说明 NTILE(n),用于将分组数据按照顺序切分成n片, 阅读全文
posted @ 2018-04-11 19:43 扎心了,老铁 阅读(11227) 评论(0) 推荐(1) 编辑
摘要:数据准备 数据格式 创建数据库及表 玩一玩SUM 查询语句 查询结果 说明 如果不指定ROWS BETWEEN,默认为从起点到当前行;如果不指定ORDER BY,则将分组内所有值累加;关键是理解ROWS BETWEEN含义,也叫做WINDOW子句:PRECEDING:往前FOLLOWING:往后CU 阅读全文
posted @ 2018-04-10 21:43 扎心了,老铁 阅读(25604) 评论(1) 推荐(1) 编辑
摘要:案例说明 现有如此三份数据:1、users.dat 数据格式为: 2::M::56::16::70072, 共有6040条数据对应字段为:UserID BigInt, Gender String, Age Int, Occupation String, Zipcode String对应字段中文解释: 阅读全文
posted @ 2018-04-10 21:41 扎心了,老铁 阅读(22681) 评论(10) 推荐(6) 编辑
摘要:一、求单月访问次数和总访问次数 1、数据说明 数据字段说明 数据格式 2、数据准备 (1)创建表 (2)导入数据 (3)验证数据 3、结果需求 现要求出:每个用户截止到每月为止的最大单月访问次数和累计到该月的总访问次数,结果数据格式如下 4、需求分析 此结果需要根据用户+月份进行分组 (1)先求出当 阅读全文
posted @ 2018-04-10 21:40 扎心了,老铁 阅读(49021) 评论(18) 推荐(11) 编辑
摘要:一、负责数据类型 1、array 现有数据如下: 1 huangbo guangzhou,xianggang,shenzhen a1:30,a2:20,a3:100 beijing,112233,13522334455,5002 xuzheng xianggang b2:50,b3:40 tianj 阅读全文
posted @ 2018-04-10 21:35 扎心了,老铁 阅读(23294) 评论(4) 推荐(9) 编辑
摘要:数学函数 Return Type Return Type Name (Signature) Name (Signature) Description Description DOUBLE round(DOUBLE a) Returns the rounded BIGINT value of a. 返 阅读全文
posted @ 2018-04-08 17:09 扎心了,老铁 阅读(24415) 评论(1) 推荐(5) 编辑
摘要:Hive注释中文乱码 创建表的时候,comment说明字段包含中文,表成功创建成功之后,中文说明显示乱码 这是因为在MySQL中的元数据出现乱码 针对元数据库metastore中的表,分区,视图的编码设置 因为我们知道 metastore 支持数据库级别,表级别的字符集是 latin1 那么我们只需 阅读全文
posted @ 2018-04-07 17:25 扎心了,老铁 阅读(37430) 评论(1) 推荐(7) 编辑
摘要:库操作 1、创建库 语法结构 CREATE (DATABASE|SCHEMA) [IF NOT EXISTS] database_name [COMMENT database_comment] //关于数据块的描述 [LOCATION hdfs_path] //指定数据库在HDFS上的存储位置 [W 阅读全文
posted @ 2018-04-07 17:24 扎心了,老铁 阅读(29802) 评论(8) 推荐(11) 编辑
摘要:一、数据类型 1、基本数据类型 Hive 支持关系型数据中大多数基本数据类型 和其他的SQL语言一样,这些都是保留字。需要注意的是所有的这些数据类型都是对Java中接口的实现,因此这些类型的具体行为细节和Java中对应的类型是完全一致的。例如,string类型实现的是Java中的String,flo 阅读全文
posted @ 2018-04-07 17:22 扎心了,老铁 阅读(26837) 评论(2) 推荐(5) 编辑
摘要:一、安装DbVisualizer 下载地址http://www.dbvis.com/ 也可以从网上下载破解版程序,此处使用的版本是DbVisualizer 9.1.1 具体的安装步骤可以百度,或是修改安装目录之后默认安装就可以 二、配置DbVisualizer里的hive jdbc 1、在DbVis 阅读全文
posted @ 2018-04-05 14:44 扎心了,老铁 阅读(25018) 评论(6) 推荐(0) 编辑
摘要:一、CLI连接 进入到 bin 目录下,直接输入命令: [hadoop@hadoop3 ~]$ hiveSLF4J: Class path contains multiple SLF4J bindings.SLF4J: Found binding in [jar:file:/home/hadoop/ 阅读全文
posted @ 2018-04-04 13:01 扎心了,老铁 阅读(85640) 评论(5) 推荐(1) 编辑
摘要:概述 Hive 的元数据信息通常存储在关系型数据库中,常用MySQL数据库作为元数据库管理。上一篇hive的安装也是将元数据信息存放在MySQL数据库中。 Hive的元数据信息在MySQL数据中有57张表 一、存储Hive版本的元数据表(VERSION) VERSION -- 查询版本信息 该表比较 阅读全文
posted @ 2018-04-03 19:58 扎心了,老铁 阅读(54419) 评论(2) 推荐(7) 编辑
摘要:Hive的下载 下载地址http://mirrors.hust.edu.cn/apache/ 选择合适的Hive版本进行下载,进到stable-2文件夹可以看到稳定的2.x的版本是2.3.3 Hive的安装 1、本人使用MySQL做为Hive的元数据库,所以先安装MySQL。 MySql安装过程ht 阅读全文
posted @ 2018-04-03 19:50 扎心了,老铁 阅读(48862) 评论(8) 推荐(13) 编辑