csv数据导入hive数据库
为了方便大数据量的csv数据处理,可以将数据导入到hive中进行处理。
具体步骤:
1.检查csv数据格式,去掉一些不需要的字符
不如“”等符号不需要在hive中显示的,可以使用sed去掉
如:
sed -i 's/"//g' *.csv
2.将数据导入到hdfs中
创建所需hdfs目录并将数据put到该目录中。如果权限不够使用hdfs用户。
hadoop fs -mkdir /user/root/para
hadoop fs -chmod 777 /user/root/para
hadoop fs -put *.csv /user/root/shanghai/para
3.连接hive库创建所需数据库
(1)连接hive
beeline
Beeline version 1.2.1000.2.5.5.0-157 by Apache Hive
beeline> !connect jdbc:hive2://localhost:10000/default
Connecting to jdbc:hive2://localhost:10000/default
Enter username for jdbc:hive2://localhost:10000/default: hive
Enter password for jdbc:hive2://localhost:10000/default: ****
(2)创建test库
0: jdbc:hive2://localhost:10000/default> create database test;
4.创建hive表并在location指定其数据来源为之前hdfs上保存的csv文件路径
CREATE EXTERNAL TABLE IF NOT EXISTS test.para (
time String,
city String,
para String
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
LINES TERMINATED BY '\n'
STORED AS TEXTFILE
LOCATION '/user/root/para';
5.检查par表中数据是否以及load
0: jdbc:hive2://localhost:10000/default> select * from test.para limit 20;
这样就可以在hive库中对数据进行处理了。
浙公网安备 33010602011771号