pod的生命周期

Kubernetes生存指南：Pod从出生到死亡的完整生命周期解析

每个Pod都是K8S世界的数字生命，从诞生到消亡的每一步都暗藏玄机！ 本文将用最接地气的方式，揭秘Pod生命周期的每个关键瞬间，附带生产环境血泪经验总结！

一、Pod诞生记：从代码到容器的奇幻旅程

1. 建档立案（Pending状态）

常见卡点：
- 镜像拉取失败（网络隔离/认证错误）
- 节点资源不足（CPU/内存吃紧）
- 亲和性规则冲突（nodeAffinity不匹配）

快速诊断命令：

kubectl describe pod [pod-name] | grep -A20 Events  # 查看调度日志
kubectl get events --sort-by=.metadata.creationTimestamp  # 按时间排序事件

2. 初始化考验（Init Containers）

真实案例：

initContainers:
- name: db-migrate
  image: alpine
  command: ['sh', '-c', 'until nc -z mysql 3306; do sleep 2; done']  # 等待数据库就绪

避坑指南：
- Init容器必须顺序执行且全部成功
- 失败时Pod状态显示Init:Error

二、成年仪式：Running状态的生存法则

1. 上岗体检（探针机制）

探针类型	检查目标	失败后果	生产建议
LivenessProbe	容器是否存活	重启容器	检查轻量级接口
ReadinessProbe	是否准备好接收流量	从Service摘除	与业务就绪逻辑挂钩
StartupProbe	保护慢启动容器（v1.18+）	允许更长启动时间	配合initialDelaySeconds

经典配置示例：

livenessProbe:
  httpGet:
    path: /healthz
    port: 8080
  initialDelaySeconds: 10  # 给JVM启动留时间
  periodSeconds: 5

readinessProbe:
  exec:
    command: ["/bin/sh", "-c", "curl -s localhost:8080/ready"]

2. 中年危机（运行期问题）

OOM杀手：内存超限导致容器突然死亡

resources:
  limits:
    memory: "512Mi"  # 必须设置！
  requests:
    memory: "256Mi"

僵尸进程：主进程未回收子进程

# Dockerfile最佳实践
CMD ["exec", "java", "-jar", "/app.jar"]  # 使用exec模式

三、临终关怀：优雅终止的艺术

标准终止流程：

1. 收到SIGTERM信号 → 2. 从Service摘除 → 3. 执行preStop钩子 
→ 4. 等待terminationGracePeriodSeconds → 5. SIGKILL强制终止

生产级终止配置：

spec:
  terminationGracePeriodSeconds: 60  # 默认30秒，按需延长
  containers:
  - lifecycle:
      preStop:
        exec:
          command: ["/bin/sh", "-c", "sleep 20; nginx -s quit"]  # 留出缓冲时间

常见惨案处理：

卡在Terminating状态：

# 强制删除（慎用！）
kubectl delete pod [pod-name] --grace-period=0 --force

Finalizers死锁：

kubectl edit pod [pod-name]  # 删除metadata.finalizers字段

四、Pod的九种死法：状态全解

状态	含义	常见原因	处理方式
Pending	等待调度	资源不足/镜像拉取失败	检查Events日志
Running	正常运行	-	监控业务指标
Succeeded	任务完成	Job/CronJob执行成功	自动清理
Failed	运行失败	容器退出码非零/OOM	查看logs --previous
Unknown	失联状态	节点宕机/Kubelet故障	检查节点状态
Terminating	正在终止	删除操作进行中	等待或强制删除
CrashLoopBackOff	崩溃循环	程序BUG/配置错误	查看最近日志
ImagePullBackOff	镜像拉取失败	镜像不存在/认证失败	检查镜像仓库权限
Init:Error	初始化失败	Init容器执行失败	排查Init容器日志

五、生命周期监控：给Pod装上心电图

Prometheus关键指标：

- alert: PodCrashLoop
  expr: kube_pod_container_status_restarts_total > 3
  for: 5m
  labels:
    severity: critical

- alert: PodNotReady
  expr: kube_pod_status_ready{condition="false"} == 1
  for: 10m

日志收集规范：

# 确保日志输出到stdout
spec:
  containers:
  - name: app
    args: 
    - --logging=json  # 业务日志标准化

六、灵魂画手：Pod生命周期全景图

[Pending] → [Init] → [Running] → [Terminating]
    ↑          |          |            |
    |          ↓          |            ↓
    └── [ImagePullBackOff] ←── [CrashLoopBackOff] 
                          |
                          ↓
                     [Succeeded/Failed]

记住：理解Pod生命周期，是K8S运维的基本功！ 掌握这些知识点，你就能像老中医一样对Pod望闻问切，保障生产环境稳定运行！

posted on 2025-03-20 13:37 Leo_Yide 阅读(132) 评论(0) 收藏举报