Hive
一.概述
- Hive是基于Hadoop的一个数据仓库工具,可以将结构化数据映射成一张表,提供sql查询能力
- Hive本质就是一个Hadoop客户端,用于将HQL(Hive SQL)转化成MapReduce程序
二.基础架构

- 用户建表语句:create table,通过hive客户端发送给Metastore服务
- Metastore将表结构信息存储到MySQL中
- 映射hdfs的真实文件
- 用户编写查询语句,分2种
- 命令行:通过Driver驱动解析sql,Driver在客户端
- JDBC查询:通过HiveServer2,Driver在HiveServer2中
- 跑一个运行在Yarn的MR程序
- 映射一个新的hdfs文件,返回计算结果
注意:metastore其实就是提供一个查询表结构的服务,真正的表结构存在MySQL中。所以一般metastore中配置数据库的连接信息,而Hiveserver2中配置metastore地址

浙公网安备 33010602011771号