实验9Hive的安装与操作

一.安装Hive

下载解压重命名权限
配置环境变量 $HIVE_HOME
修改Hive配置文件 gedit
配置mysql驱动
1. 下载合适版本的mysql jar包，拷贝到/usr/local/hive/lib目录下 ls
2. 在mysql新建hive数据库 show databases;ms
3. 配置mysql允许hive接入 show grants for 'hive'@'localhost';
启停
1. 启动Hadoop--启动Hive--退出Hive--停止Hadoop

Hive3.1.2安装指南 http://dblab.xmu.edu.cn/blog/2440-2/

二、Hive操作

hive创建与查看数据库
mysql查看hive元数据表DBS
hive创建与查看表
mysql查看hive元数据表TBLS
hdfs查看表文件位置
hive删除表
mysql查看hive元数据表TBLS
hive删除数据库
mysql查看hive元数据表DBS

三、hive进行词频统计

0. 为什么要使用Hive？

Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能。操作接口采用类SQL语法，提供快速开发的能力。避免了去写MapReduce，减少开发人员的学习成本。

准备txt文件
启动hadoop，启动hive
创建并查看文本表 create table
导入文件的数据到文本表中 load data local inpath
分割文本 split
行转列explode
统计词频group by
准备txt文件
上传文件至hdfs
从hdfs导入文件内容到表wctext, 并查看hdfs源文件，hfds数据库文件
统计词频
词频统计结果存到数据表里，并查看表和文件
本地调用本地hql文件进行词频统计，将结果保存为本地文件
退出hive，停止hadoop

posted @ 2021-12-10 14:26 leomm 阅读(47) 评论(0) 收藏举报

刷新页面返回顶部