摘要: 今天没有龙卷风(异常的高并发请求),故障却依然出现,问题非常奇怪。某种异常情况会造成短时间内, k8s 集群中大量 pod (超过60%)因健康检查失败而处于 CrashLoopBackOff 状态,健康检查失败的错误是 `connection refused`。第2次翻船后我们非常紧张,如果中午找不到有效的避免翻船的紧急措施,下午不知要翻多少次,而当前我们对这个从天而降的突发问题毫无头绪。 阅读全文
posted @ 2022-03-16 16:05 博客园团队 阅读(3608) 评论(26) 推荐(11) 编辑