随笔分类 -  大数据之Hive

大数据Hive的学习笔记
摘要:目录一、使用spark引擎0、Hive on Spark1、spark资源申请2、spark参数简介3、hive常用调优参数 一、使用spark引擎 0、Hive on Spark https://www.cnblogs.com/lq0310/p/9855245.html 1、spark资源申请 s 阅读全文
posted @ 2023-01-05 15:50 落花桂 阅读(792) 评论(0) 推荐(0)
摘要:##一、下载Tez ###1、下载 apache-tez-0.9.2-bin.tar.gz 包 官网:https://dlcdn.apache.org/tez/0.9.2/ ##二、hive配置tez引擎 ###1、解压 apache-tez-0.9.2-bin.tar.gz tar -zxvf a 阅读全文
posted @ 2022-12-18 12:28 落花桂 阅读(3081) 评论(0) 推荐(0)
摘要:###一、分析函数的语法 语法: 函数名([参数]) over(partition by [分组字段] order by [排序字段] asc/desc rows/range between 起始位置 and 结束位置) 函数解读: 函数分为两个部分 第一部分是函数名称,开窗函数的数量较少,只有11 阅读全文
posted @ 2021-08-05 17:13 落花桂 阅读(972) 评论(0) 推荐(0)
摘要:###Hive的case when语法 方法一: case when tb1.os = 'android' then 'android' when tb1.os = 'ios' then 'iPhone' else 'PC' end as os 方法二: case tb1.os when 'andr 阅读全文
posted @ 2021-07-22 19:40 落花桂 阅读(121) 评论(0) 推荐(0)
摘要:[Toc] 数据仓库 一、什么是数据仓库 数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它出于分析性报告和决策支持目的而创建。为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。 阅读全文
posted @ 2020-04-06 16:52 落花桂 阅读(251) 评论(0) 推荐(0)
摘要:[Toc] 企业级调优 一、Fetch抓取 Fetch抓取是指, Hive中对某些情况的查询可以不必使用MapReduce计算。 例如:SELECT FROM employees;在这种情况下,Hive可以简单地读取employee对应的存储目录下的文件,然后输出查询结果到控制台。 在hive de 阅读全文
posted @ 2020-04-05 13:53 落花桂 阅读(259) 评论(0) 推荐(0)
摘要:[Toc] 函数 一、系统自带函数 1)查看系统自带的函数 2)显示自带的函数的用法 3)详细显示自带的函数的用法 二、自定义函数 1)Hive 自带了一些函数,比如:max/min等,但是数量有限,自己可以通过自定义UDF来方便的扩展。 2)当Hive提供的内置函数无法满足你的业务处理需要时,此时 阅读全文
posted @ 2020-04-03 13:21 落花桂 阅读(275) 评论(0) 推荐(0)
摘要:[Toc] 查询 一、基本查询 1、全表和特定列查询 1)全表查询 2)选择特定列查询 注意: (1)SQL 语言大小写不敏感。 (2)SQL 可以写在一行或者多行 (3)关键字不能被缩写也不能分行 (4)各子句一般要分行写。 (5)使用缩进提高语句的可读性。 2、列别名 1)重命名一个列。 2)便 阅读全文
posted @ 2020-04-02 13:45 落花桂 阅读(431) 评论(0) 推荐(0)
摘要:[Toc] DML数据操作 一、数据导入 1、向表中装载数据(Load) 1)语法 2)实操案例 (1)创建一张表 (2)加载本地文件到hive (3)加载HDFS文件到hive中 (4)加载数据覆盖表中已有的数据 2、通过查询语句向表中插入数据(Insert) 1)创建一张分区表 2)基本插入数据 阅读全文
posted @ 2020-04-01 12:03 落花桂 阅读(237) 评论(0) 推荐(0)
摘要:[Toc] 数据定义 一、创建数据库 1、创建一个数据库,数据库在HDFS上的默认存储路径是/user/hive/warehouse/ .db。 2、避免要创建的数据库已经存在错误,增加if not exists判断。(标准写法) 3、创建一个数据库,指定数据库在HDFS上存放的位置 二、修改数据库 阅读全文
posted @ 2020-03-06 20:11 落花桂 阅读(357) 评论(0) 推荐(0)
摘要:[Toc] Hive数据类型 一、基本数据类型 Hive数据类型 | Java数据类型 | 长度 | 例子 | | | TINYINT | byte | 1byte有符号整数 | 20 SMALINT | short | 2byte有符号整数 | 20 INT | int | 4byte有符号整数 阅读全文
posted @ 2020-03-03 19:43 落花桂 阅读(176) 评论(0) 推荐(0)
摘要:[Toc] Hive常见属性配置 1、Hive数据仓库位置配置 1)Default数据仓库的最原始位置是在hdfs上的:/user/hive/warehouse路径下 2)在仓库目录下,没有对默认的数据库default创建文件夹。如果某张表属于default数据库,直接在数据仓库目录下创建一个文件夹 阅读全文
posted @ 2020-01-25 19:00 落花桂 阅读(219) 评论(0) 推荐(0)
摘要:[Toc] 一、Hive基本概念 1.1 什么是Hive Hive:由Facebook开源用于解决海量结构化日志的数据统计。 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。 本质是:将HQL/SQL转化成MapReduce程序。 1)Hiv 阅读全文
posted @ 2020-01-24 15:17 落花桂 阅读(297) 评论(0) 推荐(0)

返回顶端
Live2D