Hive

一.概述
  • Hive是基于Hadoop的一个数据仓库工具,可以将结构化数据映射成一张表,提供sql查询能力
  • Hive本质就是一个Hadoop客户端,用于将HQL(Hive SQL)转化成MapReduce程序

二.基础架构

  1.  用户建表语句:create table,通过hive客户端发送给Metastore服务
  2. Metastore将表结构信息存储到MySQL中
  3. 映射hdfs的真实文件
  4. 用户编写查询语句,分2种
    • 命令行:通过Driver驱动解析sql,Driver在客户端
    • JDBC查询:通过HiveServer2,Driver在HiveServer2中
  5. 跑一个运行在Yarn的MR程序
  6. 映射一个新的hdfs文件,返回计算结果

注意:metastore其实就是提供一个查询表结构的服务,真正的表结构存在MySQL中。所以一般metastore中配置数据库的连接信息,而Hiveserver2中配置metastore地址

posted @ 2024-03-27 12:06  小猴子_X  阅读(10)  评论(0)    收藏  举报