csv数据导入hive数据库

为了方便大数据量的csv数据处理,可以将数据导入到hive中进行处理。

具体步骤:

1.检查csv数据格式,去掉一些不需要的字符

不如“”等符号不需要在hive中显示的,可以使用sed去掉

如:

sed -i 's/"//g' *.csv

2.将数据导入到hdfs中

创建所需hdfs目录并将数据put到该目录中。如果权限不够使用hdfs用户。

hadoop fs -mkdir /user/root/para
hadoop fs -chmod 777 /user/root/para
hadoop fs -put *.csv /user/root/shanghai/para
 
3.连接hive库创建所需数据库
(1)连接hive
beeline
Beeline version 1.2.1000.2.5.5.0-157 by Apache Hive
beeline> !connect jdbc:hive2://localhost:10000/default
Connecting to jdbc:hive2://localhost:10000/default
Enter username for jdbc:hive2://localhost:10000/default: hive
Enter password for jdbc:hive2://localhost:10000/default: ****
(2)创建test库
0: jdbc:hive2://localhost:10000/default> create database test;
 
 
4.创建hive表并在location指定其数据来源为之前hdfs上保存的csv文件路径

CREATE EXTERNAL TABLE IF NOT EXISTS test.para (
time String,
city String,
para String
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
LINES TERMINATED BY '\n'
STORED AS TEXTFILE
LOCATION '/user/root/para';

5.检查par表中数据是否以及load

0: jdbc:hive2://localhost:10000/default> select * from test.para limit 20;

这样就可以在hive库中对数据进行处理了。

posted on 2017-07-28 10:57  juneW  阅读(960)  评论(0)    收藏  举报

导航