随笔分类 -  K8S相关 / K8S故障排查

摘要:1. 影响范围和故障时间线 影响范围 ... 影响时间线(2022-xx-xx xx:xx ~ 2022-xx-xx xx:xx) ... 2. 故障发生原因 故障现象 根因分析 ... 3. Why 分析 5 why 分析法 4. 后续 TODO 阅读全文
posted @ 2024-07-09 14:44 david_cloud 阅读(117) 评论(0) 推荐(0)
摘要:问题:镜像仓库认证 secret 创建后,被 rancher 更新为 旧密码 解决方式:删除 项目id 相对应的namespace 下的 secret,停止自动同步更新 原因:之前 创建 镜像仓库凭证 是通过 rancher UI 创建,作用域为 项目下所有命令空间 排查思路: 查看 secrets 阅读全文
posted @ 2024-07-09 14:37 david_cloud 阅读(13) 评论(0) 推荐(0)
摘要:Kubernetes中namespace有两种常见的状态,即Active和Terminating状态,其中Terminating状态一般会比较少见,当对应的命名空间下还存在运行的资源,但该命名空间被删除时才会出现所谓的Terminating状态,这种情况下只要等待Kubernetes本身将命名空间下 阅读全文
posted @ 2024-07-09 14:36 david_cloud 阅读(25) 评论(0) 推荐(0)
摘要:Pod 驱逐场景总结 从一个 SRE 角度看, Pod 驱逐分为两种情况: 较安全驱逐 & 提高稳定性的良性驱逐 API 发起驱逐,典型案例:kubectl drain Node Not Ready 时,Controller Manager 发起的驱逐 有风险的驱逐 节点压力驱逐 节点磁盘空间不足、 阅读全文
posted @ 2024-07-09 14:34 david_cloud 阅读(68) 评论(0) 推荐(0)
摘要:Etcd 磁盘空间爆满解决方案 etcd默认的空间配额限制为2G,超出空间配额限制就会影响服务,所以需要定期清理 设置环境变量 ETCD_CA_CERT="/etc/kubernetes/pki/etcd/ca.crt" ETCD_CERT="/etc/kubernetes/pki/etcd/ser 阅读全文
posted @ 2024-07-09 14:32 david_cloud 阅读(108) 评论(0) 推荐(0)
摘要:问题时间线 xx:xx] 开发收到业务反馈接口响应超时 [xx:xx] 开发&SRE&中间件 联合排查代码、网关、底层网络问题,无果 [xx:xx] 测试环境复现排查 [xx:xx] 利用差异法、排除法和经验解决,先上线 [xx:xx] 根因定位 问题现象 1)接口偶发性超时 image-20240 阅读全文
posted @ 2024-07-09 11:54 david_cloud 阅读(234) 评论(0) 推荐(0)
摘要:在我们日常的工作当中,通常应用都会采用 Kubernetes 进行容器化部署,但是总是会出现一些问题,例如,JVM 堆小于 Docker 容器中设置的内存大小和 Kubernetes 的内存大小,但是还是会被 OOMKilled。在此我们介绍一下 K8s 的 OOMKilled 的 Exit Cod 阅读全文
posted @ 2024-07-09 11:50 david_cloud 阅读(766) 评论(0) 推荐(0)
摘要:<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<< 特性说明: enableServiceLinks特性,是k8s提供给pod发现和访问svc的两种方案之一(另一种是DNS)。 该特性在pod启动时,kubelet会将active svc通过env {SVCNAME}_SERVICE 阅读全文
posted @ 2024-07-09 11:44 david_cloud 阅读(217) 评论(0) 推荐(0)
摘要:一、常用命令 首先列出Pod排查过程中的常用命令: 查看Pod状态:kubectl get pod podname -o wide 查看Pod的yaml配置:kubectl get pods podname -o yaml 查看pod事件:kubectl describe pods podname 阅读全文
posted @ 2024-07-09 11:38 david_cloud 阅读(308) 评论(0) 推荐(0)
摘要:超时问题 客户反馈从pod中访问服务时,总是有些请求的响应时延会达到5秒。正常的响应只需要毫秒级别的时延。 DNS 5秒延时 在pod中(通过nsenter -n tcpdump)抓包,发现是有的DNS请求没有收到响应,超时5秒后,再次发送DNS请求才成功收到响应。 在kube-dns pod抓包, 阅读全文
posted @ 2024-07-09 11:34 david_cloud 阅读(147) 评论(0) 推荐(0)