Hive - 随笔分类 - 理想三旬_z

8.总结Hive中的窗口函数以及anti join，semi join

摘要：相关函数说明： OVER()：指定分析函数工作的数据窗口大小，这个数据窗口大小可能会随着行的变而变化 CURRENT ROW：当前行 n PRECEDING：往前n行数据 n FOLLOWING：往后n行数据 UNBOUNDED：起点，UNBOUNDED PRECEDING 表示从前面的起点， UN 阅读全文

posted @ 2022-08-24 14:12 理想三旬_z 阅读(1476) 评论(0) 推荐(0)

7.维度表与事实表的概念区分

摘要：1.数据仓库与操作型数据库的区别仓库的物理模型与常见的操作型数据库的物理模型有很大不同。最明显的区别是：操作型数据库主要是用来支撑即时操作，对数据库的性能和质量要求都比较高，为了防止“garbage in，garbage out”，通常设计操作型数据库的都要遵循几个范式的约束，除非少数情况下为了性阅读全文

posted @ 2021-12-21 22:34 理想三旬_z 阅读(5102) 评论(0) 推荐(1)

6.Hive中内部表和外部表的区别

摘要：有external标志的是外部表，无则内部表；内部表由Hive自身管理，而外部表由HDFS管理，数据在HDFS上，外部表可以理解成只是存了条建表语句映射到HDFS上的数据文件，并没有产生数的复制或者迁移；内部表存储位置：默认情况下/hive/warehouse，外部表如果用户没指定，则在/hiv 阅读全文

posted @ 2021-11-24 22:40 理想三旬_z 阅读(758) 评论(0) 推荐(0)

3.HIve中导入、导出数据的几种方式

摘要：一、往HIVE表中导入导出数据 1.建表时直接导入：如果你的数据已经在HDFS上存在，已经为结构化数据，并且数据所在的HDFS路径不需要维护，那么可以直接在建表的时候使用location指定数据所在的HDFS路径即可 CREATE [EXTERNAL] TABLE t_lxw1234 ( day 阅读全文

posted @ 2021-10-05 15:10 理想三旬_z 阅读(1877) 评论(0) 推荐(0)

5.Hive常用函数

摘要：首先要明确的是：hive中的函数包括内置函数和自定义函数；而内置函数又包括：简单函数（map阶段），聚合函数（reduce阶段），集合函数（map阶段），特殊函数。而自定义函数又包括：UDF（map阶段），UDAF（reduce阶段）。内置函数：不一一列举，查看语句如下： show functi 阅读全文

posted @ 2021-09-29 19:22 理想三旬_z 阅读(111) 评论(0) 推荐(0)

4.Hive中的ODS、 DWD、 DWS、 ADS 数仓分层

摘要：1、数据仓库我们常提的数仓（DataWarehouse），就是在我们已有的数据库（他是对数据的存储）的基础之上，增加了对数据的OLAP（On-Line Analytical Processing），支持复杂的数据分析操作，更侧重决策支持，提供直观易懂的查询结果，而数据库更着重的是事务处理。换句话讲阅读全文

posted @ 2021-09-29 17:50 理想三旬_z 阅读(13694) 评论(0) 推荐(1)

2.Hive数据仓库

摘要：以下全部是在Zeppelin上操作一、内部表： 1.向内部表插入数据 %hive --insert into mydemo.xxx values(1,'zhangsan',25),(2,'wangwu',27) select * from mydemo.xxx 2.创建1个压缩格式为orc的内部表阅读全文

posted @ 2021-09-22 21:08 理想三旬_z 阅读(237) 评论(0) 推荐(0)

1.Hadoop上搭建hive；初始hhive；并运用zeppelin工具

摘要：一、准备阶段 1.搭建好Hadoop的服务器。 2.hive压缩包上传至/opt 3.zeppelin压缩包上传至/opt 二、开始搭建Hive (确保安装mysql和hadoop) 首先上传hive至opt目录下 hive-1.1.0-cdh5.14.2.tar.gz mkdir -p /op 阅读全文

posted @ 2021-09-18 01:35 理想三旬_z 阅读(225) 评论(0) 推荐(0)

随笔分类 - Hive