ZackSun

2018年9月28日

摘要： ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程，目的是将企业中的分散、零乱、标准不统一的数据整合到一起，为企业的决策提供分析依据。 ETL是BI项目重要的一个环节。通常情况下，在BI项目中ETL会花掉整个项目至少1/3的时间,ETL设计的好坏直接关接到BI项目的成败。 ETL的阅读全文

posted @ 2018-09-28 17:13 ZackSun 阅读(384) 评论(0) 推荐(0)

2018年9月27日

Hive（七）Hive分析窗口函数

摘要：一数据准备 cookie1,2015-04-10,1 cookie1,2015-04-11,5 cookie1,2015-04-12,7 cookie1,2015-04-13,3 cookie1,2015-04-14,2 cookie1,2015-04-15,4 cookie1,2015-04-16 阅读全文

posted @ 2018-09-27 15:49 ZackSun 阅读(10134) 评论(0) 推荐(4)

Hive（九）Hive 执行过程实例分析

摘要：一、Hive 执行过程概述 1、概述（1） Hive 将 HQL 转换成一组操作符（Operator），比如 GroupByOperator, JoinOperator 等（2）操作符 Operator 是 Hive 的最小处理单元（3）每个操作符代表一个 HDFS 操作或者 MapReduc 阅读全文

posted @ 2018-09-27 15:42 ZackSun 阅读(406) 评论(0) 推荐(0)

Hive（八）Hive的Shell操作与压缩存储

摘要：一、Hive的命令行 1、Hive支持的一些命令 Command Description quit Use quit or exit to leave the interactive shell. set key=value Use this to set value of particular c 阅读全文

posted @ 2018-09-27 15:41 ZackSun 阅读(823) 评论(0) 推荐(0)

Hive（六）内置函数与高级操作

摘要：一内置函数 1 数学函数 Return Type Return Type Name (Signature) Name (Signature) Description Description DOUBLE round(DOUBLE a) Returns the rounded BIGINT value 阅读全文

posted @ 2018-09-27 15:40 ZackSun 阅读(2585) 评论(0) 推荐(0)

Hive（四）Hive的3种连接方式与DbVisualizer连接Hive

摘要：一、CLI连接进入到 bin 目录下，直接输入命令：启动成功的话如上所示，接下来便可以做 hive 相关操作补充： 1、上面的 hive 命令相当于在启动的时候执行：hive --service cli 2、使用 hive --help，可以查看 hive 命令可以启动那些服务 3、通过 hi 阅读全文

posted @ 2018-09-27 15:39 ZackSun 阅读(446) 评论(0) 推荐(0)

Hive（五）数据类型与库表操作以及中文乱码

摘要：一、数据类型 1、基本数据类型 Hive 支持关系型数据中大多数基本数据类型和其他的SQL语言一样，这些都是保留字。需要注意的是所有的这些数据类型都是对Java中接口的实现，因此这些类型的具体行为细节和Java中对应的类型是完全一致的。例如，string类型实现的是Java中的String，flo 阅读全文

posted @ 2018-09-27 15:39 ZackSun 阅读(684) 评论(0) 推荐(0)

Hive（三）Hive元数据信息对应MySQL数据库表

摘要：概述 Hive 的元数据信息通常存储在关系型数据库中，常用MySQL数据库作为元数据库管理。上一篇hive的安装也是将元数据信息存放在MySQL数据库中。 Hive的元数据信息在MySQL数据中有57张表一、存储Hive版本的元数据表（VERSION） VERSION -- 查询版本信息该表比较阅读全文

posted @ 2018-09-27 15:37 ZackSun 阅读(843) 评论(0) 推荐(0)

Hive（二）CentOS7.5安装Hive2.3.3

摘要：一 Hive的下载软件下载地址：https://mirrors.tuna.tsinghua.edu.cn/apache/hive/ 这里下载的版本是：apache-hive-2.3.3-bin.tar.gz 官方安装配置文档：https://cwiki.apache.org/confluence/ 阅读全文

posted @ 2018-09-27 15:36 ZackSun 阅读(443) 评论(0) 推荐(0)

Hive（一）Hive初识

摘要：一 Hive 简介什么是Hive 1、Hive 由 Facebook 实现并开源 2、是基于 Hadoop 的一个数据仓库工具 3、可以将结构化的数据映射为一张数据库表 4、并提供 HQL(Hive SQL)查询功能 5、底层数据是存储在 HDFS 上 6、Hive的本质是将 SQL 语句转换为阅读全文

posted @ 2018-09-27 15:35 ZackSun 阅读(281) 评论(0) 推荐(0)

Hive（十）Hive性能调优总结

摘要：一、Fetch抓取 1、理论分析 Fetch抓取是指，Hive中对某些情况的查询可以不必使用MapReduce计算。例如：SELECT * FROM employees;在这种情况下，Hive可以简单地读取employee对应的存储目录下的文件，然后输出查询结果到控制台。在hive-default 阅读全文

posted @ 2018-09-27 14:59 ZackSun 阅读(435) 评论(0) 推荐(0)

HIVE表数据的导入与导出（load data&insert overwrite）

摘要： 1. 准备测试数据首先创建普通表： create table test(id int, name string) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' STORED AS TEXTFILE; 创建分区表： CREATE EXTERNAL TAB 阅读全文

posted @ 2018-09-27 14:34 ZackSun 阅读(13432) 评论(0) 推荐(0)

介质资源库

摘要： 1.大数据 http://archive.apache.org/dist/ https://hadoop.apache.org/ http://archive.cloudera.com/cdh5/cdh/5/ https://archive.apache.org/dist/hive/ 阅读全文

posted @ 2018-09-27 09:28 ZackSun 阅读(226) 评论(0) 推荐(0)

2018年9月20日

Hive性能优化

摘要： 1.概述继续《那些年使用Hive踩过的坑》一文中的剩余部分，本篇博客赘述了在工作中总结Hive的常用优化手段和在工作中使用Hive出现的问题。下面开始本篇文章的优化介绍。 2.介绍首先，我们来看看Hadoop的计算框架特性，在此特性下会衍生哪些问题？数据量大不是问题，数据倾斜是个问题。 job 阅读全文

posted @ 2018-09-20 14:38 ZackSun 阅读(365) 评论(0) 推荐(0)

Hive基本操作

摘要： 1.概述上一章《那些年使用Hive踩过的坑》介绍了Hive的基本架构及原理，加下来介绍Hive的基本操作和一些注意事项。 2.基本操作 2.1Create Table 2.1.1介绍  CREATE TABLE 创建一个指定名字的表。如果相同名字的表已经存在，则抛出异常；用户可以用 IF NOT 阅读全文

posted @ 2018-09-20 14:37 ZackSun 阅读(373) 评论(0) 推荐(0)

那些年使用Hive踩过的坑

摘要： http://www.cnblogs.com/smartloli/ 1.概述这个标题也是用血的教训换来的，希望对刚进入hive圈的童鞋和正在hive圈爬坑的童鞋有所帮助。打算分以下几个部分去描述： Hive的结构 Hive的基本操作 Hive Select Hive Join Hive UDF H 阅读全文

posted @ 2018-09-20 14:36 ZackSun 阅读(272) 评论(0) 推荐(0)

莫说相公痴，更有痴似相公者

公告