摘要:相关函数说明: OVER():指定分析函数工作的数据窗口大小,这个数据窗口大小可能会随着行的变而变化 CURRENT ROW:当前行 n PRECEDING:往前n行数据 n FOLLOWING:往后n行数据 UNBOUNDED:起点,UNBOUNDED PRECEDING 表示从前面的起点, UN
阅读全文
摘要:1.数据仓库与操作型数据库的区别 仓库的物理模型与常见的操作型数据库的物理模型有很大不同。最明显的区别是:操作型数据库主要是用来支撑即时操作,对数据库的性能和质量要求都比较高,为了防止“garbage in,garbage out”,通常设计操作型数据库的都要遵循几个范式的约束,除非少数情况下为了性
阅读全文
摘要:有external标志的是外部表,无则内部表; 内部表由Hive自身管理,而外部表由HDFS管理,数据在HDFS上,外部表可以理解成只是存了条建表语句映射到HDFS上的数据文件,并没有产生数的复制或者迁移; 内部表存储位置:默认情况下/hive/warehouse,外部表如果用户没指定,则在/hiv
阅读全文
摘要:一、往HIVE表中导入导出数据 1.建表时直接导入: 如果你的数据已经在HDFS上存在,已经为结构化数据,并且数据所在的HDFS路径不需要维护,那么可以直接在建表的时候使用location指定数据所在的HDFS路径即可 CREATE [EXTERNAL] TABLE t_lxw1234 ( day
阅读全文
摘要:首先要明确的是:hive中的函数包括内置函数和自定义函数;而内置函数又包括:简单函数(map阶段),聚合函数(reduce阶段),集合函数(map阶段),特殊函数。而自定义函数又包括:UDF(map阶段),UDAF(reduce阶段)。 内置函数: 不一一列举,查看语句如下: show functi
阅读全文
摘要:1、数据仓库 我们常提的数仓(DataWarehouse),就是在我们已有的数据库(他是对数据的存储)的基础之上,增加了对数据的OLAP(On-Line Analytical Processing),支持复杂的数据分析操作,更侧重决策支持,提供直观易懂的查询结果,而数据库更着重的是事务处理。换句话讲
阅读全文
摘要:以下全部是在Zeppelin上操作 一、内部表: 1.向内部表插入数据 %hive --insert into mydemo.xxx values(1,'zhangsan',25),(2,'wangwu',27) select * from mydemo.xxx 2.创建1个压缩格式为orc的内部表
阅读全文
摘要:一、准备阶段 1.搭建好Hadoop的服务器。 2.hive压缩包 上传至/opt 3.zeppelin压缩包 上传至/opt 二、开始搭建Hive (确保安装mysql和hadoop) 首先上传hive至opt目录下 hive-1.1.0-cdh5.14.2.tar.gz mkdir -p /op
阅读全文