Hadoop的stop-all无法关闭集群原因及解决方案

问题现象：在服务器上长时间运行hadoop之后，如果运行stop-all.sh，会发现：

[root@node1 sbin]# stop-all.sh
This script is Deprecated. Instead use stop-dfs.sh and stop-yarn.sh
Stopping namenodes on [node1 node2]
node1: no namenode to stop
node2: no namenode to stop
node2: no datanode to stop
node4: no datanode to stop
node3: no datanode to stop
Stopping journal nodes [node2 node3 node4]
node2: no journalnode to stop
node4: no journalnode to stop
node3: no journalnode to stop
Stopping ZK Failover Controllers on NN hosts [node1 node2]
node1: no zkfc to stop
node2: no zkfc to stop
stopping yarn daemons
no resourcemanager to stop
node2: no nodemanager to stop
node3: no nodemanager to stop
node4: no nodemanager to stop
no proxyserver to stop

用jps查看进程会发现:

[root@node1 sbin]# jps
11616 NameNode
114225 Jps
932 Bootstrap
39302 DFSZKFailoverController
36909 QuorumPeerMain
进程并没有关闭.

问题原因：

hadoop在stop的时候依据的是datanode上的mapred和dfs进程号。而默认的进程号保存在/tmp下，linux默认会每隔一段时间（一般是一个月或者7天左右）去删除这个目录下的文件。因此删掉hadoop-hadoop-jobtracker.pid和hadoop-hadoop-namenode.pid两个文件后，namenode自然就找不到datanode上的这两个进程了。

还有两个原因可能引起这个问题：

1：环境变量 $HADOOP_PID_DIR 在你启动hadoop后改变了

2：用另外的用户身份执行stop-all

解决方法：

1：永久解决方法，修改$HADOOP_HOME/conf/hadoop-env.sh里边，去掉export HADOOP_PID_DIR=/usr/local/hadoop/pids的#号，创建/usr/local/hadoop/pids或者你自己指定目录

发现问题后的解决方法：

这个时候通过脚本已经无法停止进程了，不过我们可以手工停止，方法是到各master和各datanode执行ps -ef | grep java | grep hadoop找到进程号强制杀掉，然后在master执行start-all脚本重新启动，就能正常启动和关闭了。

posted @ 2023-05-11 09:53 业余砖家阅读(938) 评论(0) 收藏举报

刷新页面返回顶部

业余砖家

没有比人更高的山，没有比脚更长的路。

Hadoop的stop-all无法关闭集群原因及解决方案

公告