csv数据导入hive数据库

为了方便大数据量的csv数据处理，可以将数据导入到hive中进行处理。

具体步骤：

1.检查csv数据格式，去掉一些不需要的字符

不如“”等符号不需要在hive中显示的，可以使用sed去掉

如：

sed -i 's/"//g' *.csv

2.将数据导入到hdfs中

创建所需hdfs目录并将数据put到该目录中。如果权限不够使用hdfs用户。

hadoop fs -mkdir /user/root/para

hadoop fs -chmod 777 /user/root/para

hadoop fs -put *.csv /user/root/shanghai/para

3.连接hive库创建所需数据库

（1）连接hive

beeline

Beeline version 1.2.1000.2.5.5.0-157 by Apache Hive

beeline> !connect jdbc:hive2://localhost:10000/default

Connecting to jdbc:hive2://localhost:10000/default

Enter username for jdbc:hive2://localhost:10000/default: hive

Enter password for jdbc:hive2://localhost:10000/default: ****

（2）创建test库

0: jdbc:hive2://localhost:10000/default> create database test;

4.创建hive表并在location指定其数据来源为之前hdfs上保存的csv文件路径

CREATE EXTERNAL TABLE IF NOT EXISTS test.para (
time String,
city String,
para String
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
LINES TERMINATED BY '\n'
STORED AS TEXTFILE
LOCATION '/user/root/para';

5.检查par表中数据是否以及load

0: jdbc:hive2://localhost:10000/default> select * from test.para limit 20;

这样就可以在hive库中对数据进行处理了。

posted on 2017-07-28 10:57 juneW 阅读(980) 评论(0) 收藏举报

刷新页面返回顶部

csv数据导入hive数据库

导航

公告