为什么 Kubernetes 服务中断通常是人为失误,而不是平台自身原因?

本文基于对 Why Kubernetes Outages Are Usually Human Failures, Not Platform Bugs 这篇文章的翻译。与机翻不同,本文在翻译的基础上进行了大量本土化的润色,使内容更符合中文母语读者的阅读习惯,大大提升了阅读体验。此外,对于一些较为专业或难以理解的术语,本文也附上了相关的维基百科链接,帮助读者更好地理解相关概念。需要说明的是,本文仅为原文的润色翻译,并未改变原文的表达内容。

前言

Kubernetes 本身并不复杂,是我们把它搞复杂的。无论是刻意为之还是那种虽然出于好意却将优雅的原语堆砌成 鲁布·戈德堡机械 的狂热。平台最初提供的 ReplicaSets、Services、ConfigMaps,这些基础组件简单直接,甚至显得有些枯燥。但后来我们引入了 Operators、Service Meshes,以及那些仅仅为了更新一个 Deployment 就需要三个独立控制器参与的 GitOps Pipelines。如今我们深陷在堆积如山的 YAML 配置文件中,既看不懂,也改不动,而写下这些配置的外包早在半年前就已经离职了。

我曾在凌晨两点排查过这类集群故障。明明只是一个 Pod 重启,却因为有人给一个在高峰期需要 4 秒才能建立数据库连接的服务配置了 2 秒超时的 Liveness Probe,最终导致雪崩,引发了长达 30 分钟的服务中断。这锅 Kubernetes 不背,是我们对分布式系统时序的理解出了问题。Uptime Institute 报告指出,40% 的重大故障源于人为错误:配置失误、手滑敲错 kubectl 命令、发布前测试不充分。这不是危言耸听。导致宕机的往往不是 Kernel Panic,也不是 etcd 数据损坏,而是我们自己!

安全领域的情况更不容乐观。93% 的企业承认其 Kubernetes 安全事故与操作失误有关,这说明我们面对的是流程管理的灾难,而非软件本身的缺陷。被遗忘的 RBAC 规则、直接提交到 Git 的 Secrets、在测试环境配置了却从未同步到生产的 Network Policies ...,我甚至见过有的团队直接使用特权容器(Privileged Containers)运行生产负载,理由仅仅是 "开发时这样比较方便,上线后忘了关"。这不能怪 Kubernetes 不安全,这就是披着平台复杂性外衣的制度性疏忽。

"英雄工程师"的陷阱

剧情通常是这样发展的:团队里有一位才华横溢的工程师,我们姑且叫她 Maya,她决定要打造一个"业界最强平台"。她通读了 CNCF Landscape 的各类技术文章,然后大显身手,引入 Istio 做 Service Mesh,用 Argo 做发布,在 Vault 管理 Secrets,部署 Prometheus + Thanos 做可观测性,还有 cert-manager 处理 TLS,external-dns 管理域名,Velero 搞定备份。平心而论,每个组件都解决了一个实际问题,但同时也引入了一个全新的故障类型。

六个月后,Maya 被一家初创公司用期权和更高的 Title 挖走了。留下了一套精密复杂的系统,却没人知道各个组件是如何咬合的:

  • observability stack?是 Maya 用自定义 Recording Rules 和 Federation Endpoints 配置的,逻辑只有她自己懂。

  • GitOps pipeline?依赖着她某个周末手搓的 Custom Operator 实现的 Slack Webhook 通知系统,除此之外没人碰过代码。

当系统故障时整个团队两眼一抹黑。大家只知道 kubectl get pods 显示状态是 CrashLoopBackOff,却根本搞不清为什么改了一个有三层嵌套的配置,Liveness Probe 就突然挂了。

Portainer 的 CEO 完美地捕捉到了这一点:那些由个人为了追求技术极致而搭建的 Kubernetes 环境,往往埋藏着巨大的风险,因为其复杂度会让后续的维护工作变成一场噩梦。我想进一步补充的是,真正致命的问题不在复杂性本身,而在于那些未被文档化的复杂性,也就是只存在于 Maya 脑子里的隐秘经验。面对一个复杂的系统,我们尚能抽丝剥茧找到出路;但面对一个完全不透明的黑盒,一旦出事,往往是无解的死局。

各种一键安装工具更是雪上加霜。一个 Helm Chart 能瞬间拉起 50 个资源,默认配置看起来也像模像样;Terraform Module 把底层网络配置封装得严严实实。这对提升交付速度确实有效,但对理解系统架构却是毁灭性的。当 Ingress Controller 突然无法转发流量时,你能判断出是 LoadBalancer Service 的 Annotation 写错了,还是后端 Health Check 挂了,亦或是 cert-manager 的 ClusterIssuer 丢了 ACME 凭证导致证书过期?如果你当初只是敲了一行 helm install nginx-ingress stable/nginx-ingress 却从未审视过生成的 Manifests,那你大概率是懵圈的。

认知过载与微服务税

真正的幕后黑手其实不是 Kubernetes,而是 Kubernetes 所催生的产物:规模超出人类认知极限的微服务架构。现在的开发者,光懂业务逻辑已经不够了,还得精通:Service Discovery、Circuit Breaking、Retry Policies、分布式 Tracing 的 Context Propagation、Metrics 数据格式、Health Check 的各种语义(Readiness vs Liveness vs Startup)、Resource Requests 与 Limits 的区别、Pod 调度约束、Network Policies、Secret 轮转,以及 Graceful Shutdown 流程等等。

这哪里还是写代码?分明是披着应用开发外衣的分布式系统工程。

Komodor 关于认知负荷的研究一针见血:开发者正被这些分布式系统压得喘不过气。我曾亲眼目睹初级工程师花了两天排查服务连不上 Postgres 的问题,最后发现竟然是 Network Policy 阻断了通往数据库 Namespace 的 Egress 流量。他们懂 SQL,也理解 ORM,但脑子里完全没有 Kubernetes 网络隔离的概念,因为没人教过他们,而报错信息只是一个毫无信息量的“连接超时”。

这种问题会不断累积。当团队里的每个人都在其能力边缘操作时,小失误就会被无限放大:有人把内存 Limit 设得太低 -> 高负载下 JVM OOM -> Pod 重启 -> 恰逢节点压力大,Startup Probe 超时 -> Kubernetes kill Pod -> Metrics-server 有延迟,HPA 还没来得及扩容 -> 流量全部打到剩余的 Pod 上 -> 剩余 Pod 集体 OOM -> 雪崩。这一连串事件中,每一个单独的环节看起来都挺合理,但它们组合在一起的交互复杂度却是指数级的。

回想虚拟机时代。如果服务器抽风就 SSH 上去,查查日志,重启进程,或者干脆重启机器。变量少,抽象层也少。当年我维护跑着单体 Rails 应用的虚拟机集群时,我对每一个依赖、每一个 Cron Job、每一个日志文件的路径都了如指掌。排查问题就像在走一个只有 20 个分支的决策树。而 Kubernetes 的故障排查则是一张充满了循环、死胡同和误导信息的庞大决策图。

有些人更怀念虚拟机模式。虽然弹性差了点,但你拥有对单个实例的绝对控制权。我非常理解这种想法。当你的容器化应用包含十几个相互依赖的组件,而你搞不清到底是哪个 Sidecar 导致了认证失败时,一台机器跑一个进程的简单模式简直太诱人了。编排系统充满了不确定性:比如 Pod 会因为你没察觉到的资源压力而被重新调度。这让人感觉失去了对系统的掌控感。

破局之道

解决方案并不是放弃 Kubernetes。对于许多业务场景而言,它依然是最佳选择。但前提是需要建立起工程纪律:

  • 其一:尽可能使用托管服务。Portainer 的建议非常中肯,如果你没有深厚的 Kubernetes 功底,请直接使用 EKS、AKS 或 GKE。把 Control Plane 升级、etcd 备份、Node 生命周期管理这些工作交给云厂商。虽然你仍需面对业务层面的复杂性,但至少基础设施层的锅有人背了。我见过一些小团队为了所谓的完全掌控非要在裸机上自建集群,结果遇到内核 Bug 搞坏了 etcd 数据,又没有灾备方案,硬生生停机了三周。
  • 其二:激进地简化架构。对引入的每个 Operator、CRD、基础设施代码 都要保持质疑。你真的需要 Service Mesh 吗?还是仅因为 Netflix 用了,所以就盲目跟风?能否用更简单的方式,比如标准的 Ingress 和设计合理的 Service 来满足需求?我曾经把整套复杂的监控技术栈拆掉,换成了最基础的 Prometheus + Grafana,以 20% 的运维成本实现了原系统 80% 的功能。相信我,为了那剩下 20% 的功能而被凌晨 3 点的告警电话吵醒,绝对不值。
  • 其三:将文档视为基础设施的一部分。我指的不是那些 API 文档,而是架构决策记录。解释清楚为什么选 Istio 而不是 Linkerd、权衡了什么、常见故障如何排查。要有针对高频故障的 Runbooks,要有清晰展示流量从 Ingress 到 Service 再到 Pod 的架构图。把写文档作为强制性要求,并按季度审查。目标是让新入职的同事在几周内就能上手,而不是耗费几个月摸索。
  • 其四:灰度发布与极限测试。采用 Blue-green Deployments,使用带有自动回滚机制的 Canary Releases。引入混沌工程,在工作时间随机 kill Pod,看看环境有多脆弱。如果连 Pod 挂了都扛不住,那你构建的根本不是 Kubernetes 应用,而是一个分布式单体应用。Kubernetes 随时可能重新调度 Pod,你的应用必须能够优雅地处理这种情况。
  • 其五:在培训上投入真金白银。是真正的实战培训,而不是丢下一句看文档。请那些真正维护过生产环境 Kubernetes 多年的人来讲经验,进行关于故障排查、网络原理、容量规划的研讨会。通过 on-call 轮换团队成员,让每个人都切身体会一下糟糕的设计带来的痛苦。那些真正把 Kubernetes 当作一门严肃工程学科来对待、并持续提升技能的团队,很少抱怨 K8s 复杂。因为他们的能力已经成长到足以驾驭这个工具了。

警惕新奇陷阱

Kubernetes 生态发展极快,总有新项目在说可以解决你的痛点。Progressive Delivery 框架、Policy Engines、作为 Admission Controllers 运行的安全扫描器...,单看每个都很诱人。CNCF Landscape 上已经有几百个项目了,而且还在不断增加。

忍住别乱动。对那些仅仅因为"新"而存在的东西保持警惕。引入每一个新工具都是一场豪赌:你赌的是团队能学会它、能维护它,并且在压力下能搞定它的故障。有时候你赌赢了,但更多时候,它只是增加了系统的攻击面和故障点。我见过有的团队两年换了 5 个 GitOps 工具,每次都信誓旦旦地说这个才是终极方案。结果这种折腾本身带来的问题比工具解决的问题还要多。

去用那些"无聊"的技术吧。用那些久经沙场的 Kubernetes 版本,用那些社区活跃的主流工具,用那些被成千上万个团队验证过的默认配置。虽然这些东西写不成能在技术大会上吹嘘的 PPT,但能让你睡个好觉。

到底是谁的锅?

当你的集群失控时:Pod 无限重启、诡异的网络故障、随机失败的部署动作 ...,在把锅甩给开源项目前,先审视一下你是怎么搭建的它。Kubernetes 给了你一把趁手的工具,但你却造出了一台精密却脆弱的仪器。也许它确实需要这么复杂,但多数情况下并不需要。

所谓的"Kubernetes 复杂性问题",归根结底是人的问题。培训不足、个人英雄主义、缺乏运维纪律、盲目追新、误读真实需求...,这些是可以纠正的。但并不仅是换个工具就能解决的,需要对某些 Feature 说不,对那些看似聪明的解决方案说不,对自动化越多越好这种诱人的鬼话保持清醒。

我们的目标是构建一个团队里大多数人都能维护的平台,而不是只有那个读遍了所有 SIG 会议纪要的 Staff Engineer 才能搞定的系统。系统的易用性与公交因素很重要。如果你的 Kubernetes 架构复杂到只有 Maya 一个人能看懂,那你拥有的根本不是基础设施,而是一个穿着连帽衫的单点故障。

修复工作从周一早上开始,好好审视一下你的集群。仔细看看到底需要多少个组件?哪些是必须的,哪些是锦上添花的?如果砍掉一半组件会发生什么?你现在的文档能让下周入职的新人处理线上故障吗?

Kubernetes 的工作负载扩展能力非常出色,但它无法扩展我们对它的理解能力,这是我们自己的问题。我们深陷其中的每一分复杂性,都是我们通过一个个看似合理的决策亲手埋下的。平台本身没有失败,是我们辜负了它:我们缺乏清晰的规划、严谨的纪律,以及只构建我们能够维护的系统这种谦逊的态度。

posted @ 2026-01-28 16:07  怎么还在写代码  阅读(16)  评论(0)    收藏  举报