9-28每日博客

昨天老师发布了课堂测试HIVE数据库的操作，我就要去网上查找相应的资料。

Hive入门教程
Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。Hive是一个数据仓库基础工具在Hadoop中用来处理结构化数据。它架构在Hadoop之上，总归为大数据，并使得查询和分析方便。

在Hive中，Hive是SQL解析引擎，它将SQL语句转译成M/R Job然后在Hadoop执行。Hive的表其实就是HDFS的目录/文件，按表名把文件夹分开。如果是分区表，则分区值是子文件夹，可以直接在M/RJob里使用这些数据。

最初，Hive是由Facebook开发，后来由Apache软件基金会开发，并作为进一步将它作为名义下ApacheHive为一个开源项目。它用在好多不同的公司。例如，亚马逊使用它在Amazon Elastic、MapReduce。

为什么使用 Hive

直接使用 MapReduce 所面临的问题：

　　1、人员学习成本太高

　　2、项目周期要求太短

　　3、MapReduce实现复杂查询逻辑开发难度太大

为什么要使用 Hive：

　　1、更友好的接口：操作接口采用类 SQL 的语法，提供快速开发的能力

　　2、更低的学习成本：避免了写 MapReduce，减少开发人员的学习成本

　　3、更好的扩展性：可自由扩展集群规模而无需重启服务，还支持用户自定义函数

Hive 特点

优点：

　　1、可扩展性,横向扩展，Hive 可以自由的扩展集群的规模，一般情况下不需要重启服务横向扩展：通过分担压力的方式扩展集群的规模纵向扩展：一台服务器cpu i7-6700k 4核心8线程，8核心16线程，内存64G => 128G

　　2、延展性，Hive 支持自定义函数，用户可以根据自己的需求来实现自己的函数

　　3、良好的容错性，可以保障即使有节点出现问题，SQL 语句仍可完成执行

缺点：

　　1、Hive 不支持记录级别的增删改操作，但是用户可以通过查询生成新表或者将查询结果导入到文件中（当前选择的 hive-2.3.2 的版本支持记录级别的插入操作）

　　2、Hive 的查询延时很严重，因为 MapReduce Job 的启动过程消耗很长时间，所以不能用在交互查询系统中。

　　3、Hive 不支持事务（因为不没有增删改，所以主要用来做 OLAP（联机分析处理），而不是 OLTP（联机事务处理），这就是数据处理的两大级别）。

posted @ 2021-09-28 20:21 软工新人阅读(67) 评论(0) 收藏举报

刷新页面返回顶部

软工新人

9-28每日博客

为什么使用 Hive

Hive 特点

公告