2024.7.20
本周学完了hadoop方面的知识,配置好了相关环境并且成功将数据从网页表单提交到了hive数据库中。
中间在进行mysql依赖导入时出现了问题,在更新完密钥后出现下载mysql失败,通过网络上资料查询后发现是需要更新导入的镜像源,但又因网上各种原因错综复杂,我在更改相关配置时没有进行恢复,导致更改了许多东西,从而导致我需要将虚拟机删除重新来过,而这是又出现了新的问题,那就是重新进行配置后发现不能找到node2和node3两台虚拟机的地址,在经过一下午长达8小时的反复试验后依旧不能解决这一问题,但此次历程让我明白不是我配置步骤和恢复快照等操作失误的问题,于是我开始上网上搜索各种资料,在经过两三个小时之后我找出了原因,原来虚拟机恢复快照并重新格式化集群是不能删掉集群缓存和日志的,而这些东西的存在会导致集群不能通过IP地址找到对应的虚拟机,从而导致在使用start-dfs.sh开启集群后不能开启node2和node3的问题。在通过网上的教学将虚拟机集群的缓存和日志清空后再次重新格式化并重启集群后成功做到了三台虚拟机的开启从而解决了这一问题。
今天是小学期的最后一天,也是hadoop初期阶段成果验收的日子,刚开始到教室,开始弄的时候可谓是状况百出,先是finalshell打不开,再是虚拟机打不开hive然后导致idea链接不上数据库,但经过一个小时的修改查看还是成功解决了这些问题,然后下一个小时开始完成任务,终于在四点左右完成任务并且进行了验收,虽然出了一个小错误,但问题不大,还是成功将数据进行了插入并且验收完成。
对于此次验收的bug修改里,我对于虚拟机的整个开启流程又有了一个深刻的印象,在打开三台虚拟机并且将node1的用户转换为hadoop用户后开始操作,先通过start-dfs.sh开启整个集群,再通过start-yarn.sh进入yarn模式,然后通过
nohup bin/hive --service metastore >> logs/metastore.log 2>&1 &
来启动metastore服务,并使用一个差不多的语句:
nohup bin/hive --service hiveserver2 >> logs/hiveserver2.log 2>&1 &
开启hiveserver2服务,在这一系列的操作之后,我们就可以输入bin/beeline进入beeline模式,在等待一段时间后通过输入
!connect jdbc:hive2://node1:10000
就可以进入hive数据库并且进行一系列数据库操作,并且可以通过idea连接到数据库进行后续的web操作。

浙公网安备 33010602011771号