kubernetes-服务器重启后集群检查
kubernetes-服务器重启后集群检查
搭建k8s集群的服务器因机房断电原因挂掉。以下是恢复后的常规检查
检查k8s的master组件服务
 systemctl status kube-apiserver.service kube-controller-manager.service kube-scheduler.service
检查k8s的node组件服务
systemctl status kubelet.service kube-proxy.service
检查calico、coredns、metrics的pod状态
# kubectl get pods -n kube-system -owide
检查集群节点
# kubectl get nodes
常见问题:
- pod无法解析svc
 报错如图
 ![]() 
pod中无法解析“maorong-gateway”这个svc

排查:
- 查看svc的网络
# kubectl get svc

ip是:10.96.0.1
2. 在node上对查出的ip进行网络测试
# telnet 10.96.0.1 443
# telnet 10.96.0.10 53

如图,53端口是dns解析的端口,该端口无法连通。
3. 查看coredns的pod是否正常
# kubectl get pods -n kube-system 

# kubectl get deploy -n kube-system -owide

- 恢复 coredns服务
 coredns获取镜像失败,我们修改正确镜像路径:
# kubectl edit deploy -n kube-system coredns

再次检查coredns:
# kubectl get pods -n kube-system -owide

- 
登录node节点,进行验证53端口: 
 ![]() 
- 
将报错pod进行重启 
# kubectl rollout restart deploy -n haian-sit vchain-scf-admin-front

 
                    
                     
                    
                 
                    
                

 
                
            
         
         浙公网安备 33010602011771号
浙公网安备 33010602011771号