Hive安装部署及基本操作

1.首先在Linux本地，新建/data/hive1目录，用于存放所需文件。

2.将/data/hive1目录下的hive-1.1.0-cdh5.4.5.tar.gz，解压缩到/apps目录下。

3.使用vim打开用户环境变量。

4.由于Hive需要将元数据，存储到Mysql中。所以需要拷贝/data/hive1目录下的

5.下面配置Hive，切换到/apps/hive/conf目录下，并创建Hive的配置文件hive-site.xml。

6.另外，还需要告诉Hive，Hadoop的环境配置。所以我们需要修改hive-env.sh文件。

7.下一步是配置Mysql，用于存储Hive的元数据。

8.开启Mysql数据库。

9.执行测试。由于Hive对数据的处理，依赖MapReduce计算模型，所以需要保证Hadoop相关进程已经启动。

10. .首先在Linux本地新建/data/hive2目录。切换到/data/hive2目录下，使用wget命令，下载

11. 输入jps检查Hadoop相关进程，是否已经启动。若未启动，切换到/apps/hadoop/sbin目录下，启动Hadoop。开启Hive，首先，需要保证Mysql启动。执行以下命令，查看Mysql的运行状态。

12. 在Hive中创建一个数据仓库，名为DB。查看数据仓库DB的信息及路径。删除名为DB的数据仓库。

13. 创建一个名为cat的内部表，有两个字段为cat_id和cat_name，字符类型为string。

查看是否创建成功。再次创建一个与刚才表名相同的表，看一下报错。

14. 创建一个外部表，表名为cat2，有两个字段为cat_id和cat_name，字符类型为string。

修改cat表的表结构。对cat表添加两个字段group_id和cat_code。

使用desc命令查看一下加完字段后的cat表结构。

修改cat2表的表名。把cat2表重命名为cat3 。

删除名为cat3的表并查看。

创建与已知表相同结构的表，创建一个与cat表结构相同的表，名为cat4，这里要用到like关键字。

15. 从本地文件系统中导入数据到Hive表。

首先，在Hive中创建一个cat_group表，包含group_id和group_name两个字段，字符类型为string，以“\t”为分隔符，并查看结果。

16. 将HDFS上的数据导入到Hive中。

17. 从别的表中查询出相应的数据并导入到Hive中。

18. 从别的表中查询出相应的数据并导入到Hive中。

19. 在创建表的时候从别的表中查询出相应数据并插入到所创建的表中。

20. 首先检查Hadoop相关进程，是否已经启动。若未启动，切换到/apps/hadoop/sbin目录下，启动Hadoop。

21. 打开一个新的命令行，切换到/data/hive3目录下，如不存在需提前创建hive3文件夹。使用wget命令，下载http://192.168.1.150:60000/allfiles/hive3中的文件。

22. 在hive命令行，创建买家行为日志表，名为buyer_log，包含ID（id）、用户ID（buyer_id）、时间（dt）、地点（ip）、操作类型（opt_type）5个字段，字符类型为string，以'\t'为分隔符。将本地/data/hive3/下的表buyer_log中数据导入到Hive中的buyer_log表中，表buyer_favorite中数据导入到Hive中的buyer_favorite表中。

23. 普通查询，例如查询buyer_log表中全部字段，数据量大时应避免查询全部数据。（limit 10为限制查询10条数据）

别名查询

限定查询（where）

24. 两表或多表联合查询

25. 多表插入，多表插入指的是在同一条语句中，把读取的同一份数据插入到不同的表中。

26. 多目录输出文件，将同一文件输出到本地不同文件夹中

27. 使用shell脚本调用Hive查询语句。编写完成，赋予其执行权限。执行shell脚本。

posted @ 2025-04-09 21:01 涨涨涨张阅读(7) 评论(0) 收藏举报

刷新页面返回顶部

zh-ang-zhang

Hive安装部署及基本操作

公告