Hive安装部署及基本操作
1.首先在Linux本地,新建/data/hive1目录,用于存放所需文件。
2.将/data/hive1目录下的hive-1.1.0-cdh5.4.5.tar.gz,解压缩到/apps目录下。
3.使用vim打开用户环境变量。
4.由于Hive需要将元数据,存储到Mysql中。所以需要拷贝/data/hive1目录下的
5.下面配置Hive,切换到/apps/hive/conf目录下,并创建Hive的配置文件hive-site.xml。
6.另外,还需要告诉Hive,Hadoop的环境配置。所以我们需要修改hive-env.sh文件。
7.下一步是配置Mysql,用于存储Hive的元数据。
8.开启Mysql数据库。
9.执行测试。由于Hive对数据的处理,依赖MapReduce计算模型,所以需要保证Hadoop相关进程已经启动。
10. .首先在Linux本地新建/data/hive2目录。切换到/data/hive2目录下,使用wget命令,下载
11. 输入jps检查Hadoop相关进程,是否已经启动。若未启动,切换到/apps/hadoop/sbin目录下,启动Hadoop。开启Hive,首先,需要保证Mysql启动。执行以下命令,查看Mysql的运行状态。
12. 在Hive中创建一个数据仓库,名为DB。查看数据仓库DB的信息及路径。删除名为DB的数据仓库。
13. 创建一个名为cat的内部表,有两个字段为cat_id和cat_name,字符类型为string。
查看是否创建成功。再次创建一个与刚才表名相同的表,看一下报错。
14. 创建一个外部表,表名为cat2,有两个字段为cat_id和cat_name,字符类型为string。
修改cat表的表结构。对cat表添加两个字段group_id和cat_code。
使用desc命令查看一下加完字段后的cat表结构 。
修改cat2表的表名。把cat2表重命名为cat3 。
删除名为cat3的表并查看。
创建与已知表相同结构的表,创建一个与cat表结构相同的表,名为cat4,这里要用到like关键字。
15. 从本地文件系统中导入数据到Hive表。
首先,在Hive中创建一个cat_group表,包含group_id和group_name两个字段,字符类型为string,以“\t”为分隔符,并查看结果。
16. 将HDFS上的数据导入到Hive中。
17. 从别的表中查询出相应的数据并导入到Hive中。
18. 从别的表中查询出相应的数据并导入到Hive中。
19. 在创建表的时候从别的表中查询出相应数据并插入到所创建的表中。
20. 首先检查Hadoop相关进程,是否已经启动。若未启动,切换到/apps/hadoop/sbin目录下,启动Hadoop。
21. 打开一个新的命令行,切换到/data/hive3目录下,如不存在需提前创建hive3文件夹。使用wget命令,下载http://192.168.1.150:60000/allfiles/hive3中的文件。
22. 在hive命令行,创建买家行为日志表,名为buyer_log,包含ID(id) 、用户ID(buyer_id) 、时间(dt) 、 地点(ip) 、操作类型(opt_type)5个字段,字符类型为string,以'\t'为分隔符。将本地/data/hive3/下的表buyer_log中数据导入到Hive中的buyer_log表中,表buyer_favorite中数据导入到Hive中的buyer_favorite表中。
23. 普通查询,例如查询buyer_log表中全部字段,数据量大时应避免查询全部数据。(limit 10为限制查询10条数据)
别名查询
限定查询(where)
24. 两表或多表联合查询
25. 多表插入,多表插入指的是在同一条语句中,把读取的同一份数据插入到不同的表中。
26. 多目录输出文件,将同一文件输出到本地不同文件夹中
27. 使用shell脚本调用Hive查询语句。编写完成,赋予其执行权限。执行shell脚本 。

浙公网安备 33010602011771号