Spark学习 day2
今天在启动Spark时:
1、启动顺序错误:先启动Spark HistoryServer,但HDFS还没启动 → HistoryServer连接NameNode失败
2、服务冲突:start-all.sh时其他节点已有服务运行 → 需要先停止
3、Spark集群误启动:最后执行了sbin/start-all.sh(Spark的)而不是Hadoop的
4、权限警告:启动时有ERROR: Cannot set priority of datanode process但服务仍能运行
根本原因:
依赖关系不清楚:Spark HistoryServer依赖HDFS,必须先启动HDFS
命令混淆:Hadoop的start-all.sh vs Spark的sbin/start-all.sh
集群状态不清:没有先清理已运行的服务
正确的启动顺序:
# 1. 停止所有可能运行的服务(清理环境)
stop-all.sh
# 2. 启动HDFS
start-dfs.sh
# 3. 检查HDFS状态,等待安全模式关闭
hdfs dfsadmin -safemode wait
# 4. 启动YARN
start-yarn.sh
# 5. 启动Hadoop JobHistoryServer
mapred --daemon start historyserver
# 6. 启动Spark HistoryServer
cd /export/server/spark
sbin/start-history-server.sh
# 7. 启动Spark Standalone集群
sbin/start-all.sh
浙公网安备 33010602011771号