【故障公告】没有龙卷风，k8s集群翻船3次，投用双集群恢复

今天没有龙卷风（异常的高并发请求），故障却依然出现，问题非常奇怪。

某种异常情况会造成短时间内， k8s 集群中大量 pod （超过60%）因健康检查失败而处于 CrashLoopBackOff 状态，健康检查失败的错误是 connection refused

Liveness probe failed: Get "http://192.168.238.204:3501/v1.0/healthz": dial tcp 192.168.238.204:3501: connect: connection refused
Readiness probe failed: Get "http://192.168.238.204:3501/v1.0/healthz": dial tcp 192.168.238.204:3501: connect: connection refused

今天 k8s 集群因此翻船3次，分别是

早上 10:00-10:15
中午 11:48-12:07
下午 14:20-14:35

第2次翻船后我们非常紧张，如果中午找不到有效的避免翻船的紧急措施，下午不知要翻多少次，而当前我们对这个从天而降的突发问题毫无头绪。

中午我们想到了一招，既然1艘船扛不住，那我们用2艘，2艘同时翻的可能性小很多，而且翻掉的1艘过段时间自己也能恢复，即使2艘也扛不住，那故障的影响也会减小。

就在我们刚部署好新的集群，14:20 左右开始又翻船了，加入新船后恢复了正常。

从2艘船并驾齐驱的情况看，我们相信可以扛住。

非常抱歉！这段时间的频繁故障给大家带来了很大的麻烦，请大家谅解！

Kubernetes 集群相关信息：

使用阿里云服务器自己搭建
k8s 版本是 1.23.3
网络用的是 calico

posted @ 2022-03-16 16:05 博客园团队阅读(3771) 评论(26) 收藏举报

刷新页面返回顶部