Hive 操作与应用 词频统计
一、hive用本地文件进行词频统计
1.准备本地txt文件

2.启动hadoop,启动hive

3.创建数据库,创建文本表
#查看数据库
show databases;

#创建数据库
create database if not exists hive;

#查看是否成功创建数据库
show databases;

4.映射本地文件的数据到文本表中
#查看表
use hive;
show tables;

#创建表
create table if not exists pctext(line string);

#查看是否成功创建表
show tables;

#映射本地文件的数据到文本表中
load data local inpath '/home/hadoop/HLH/hlh1.txt' into table pctext;

#查看映射内容
select * from pctext;

5.hql语句进行词频统计交将结果保存到结果表中。
#词频统计
select split(line,'') as word from pctext;
select explod(split(line,'')) as word from pctext;



6.查看统计结果
#查看统计结果
select word,count(1) as count from (select explode(split(line,'')) as word from pctext) w group by word order by word;




二、hive用HDFS上的文件进行词频统计
1.准备电子书或其它大的文本文件
2.将文本文件上传到HDFS上
#上传本地文件
hdfs dfs -put HLH HLH
#查看上传结果
hdfs dfs -ls HLH

3.创建文本表
#创建数据表
create table if not exists HLH(line string)
#查看数据表是否创建成功
show tables;

浙公网安备 33010602011771号