K8s Pod调度策略

Kubernetes Pod调度终极指南：掌握这8个核心因素实现精准调度

作为Kubernetes集群的资源调度指挥官，Pod的调度策略直接影响着应用的性能和稳定性。本文将结合生产环境中的实战经验，深度解析影响Pod调度的关键因素，并提供可直接复用的配置范例。

一、资源调度：算力分配的基石

Requests/Limits精确配置
```
resources:
  requests:
    cpu: "500m"  # 必须精确到毫核
    memory: "1Gi" # 使用二进制单位
  limits:
    cpu: "2"
    memory: "4Gi"
```
- 生产铁律：
  - 必须设置requests，否则Pod可能被调度到资源不足节点
  - Limits不超过节点总资源的80%（防止资源争抢）

超卖风险控制

# 查看节点资源分配情况
kubectl describe node [node-name] | grep Allocatable -A5

典型问题：内存超卖导致OOM Killer随机杀进程

二、节点定向：精准定位目标机器

NodeSelector硬匹配
```
nodeSelector:
  disktype: ssd
  zone: east
```
- 适用场景：
  - GPU节点调度
  - 本地SSD存储需求

NodeAffinity智能调度

affinity:
  nodeAffinity:
    requiredDuringSchedulingIgnoredDuringExecution:  # 硬规则
      nodeSelectorTerms:
      - matchExpressions:
        - key: topology.kubernetes.io/zone
          operator: In
          values: [east-1a]
    preferredDuringSchedulingIgnoredDuringExecution: # 软规则
    - weight: 1
      preference:
        matchExpressions:
        - key: env
          operator: In
          values: [prod]

权重策略：多个软规则时按weight值排序

三、Pod关系：微服务的共生与互斥

PodAntiAffinity高可用保障

affinity:
  podAntiAffinity:
    requiredDuringSchedulingIgnoredDuringExecution:
    - labelSelector:
        matchExpressions:
        - key: app
          operator: In
          values: [web]
      topologyKey: kubernetes.io/hostname

效果：相同应用的Pod分散在不同节点

PodAffinity数据亲和性

podAffinity:
  requiredDuringSchedulingIgnoredDuringExecution:
  - labelSelector:
      matchExpressions:
      - key: db
        operator: In
        values: [mysql]
    topologyKey: topology.kubernetes.io/zone

典型场景：计算服务与数据库同区域部署

四、污点防御：专用节点的安全隔离

节点打标与Pod容忍

# 给GPU节点打污点
kubectl taint nodes gpu-node01 hardware=gpu:NoSchedule

tolerations:
- key: "hardware"
  operator: "Equal"
  value: "gpu"
  effect: "NoSchedule"

三种驱逐策略：
- NoSchedule：禁止新Pod调度
- PreferNoSchedule：尽量避免调度
- NoExecute：驱逐已有Pod

生产级隔离方案

# 关键系统组件专用节点
tolerations:
- key: "CriticalAddonsOnly"
  operator: "Exists"
  effect: "NoSchedule"

五、优先级控制：关键业务的通行证

PriorityClass定义

apiVersion: scheduling.k8s.io/v1
kind: PriorityClass
metadata:
  name: high-priority
value: 1000000
globalDefault: false
description: "用于关键业务Pod"

取值范围：0到10亿，值越大优先级越高

抢占风险防范
```
spec:
  priorityClassName: high-priority
  preemptionPolicy: Never  # 禁止抢占其他Pod
```
- 注意事项：
  - 监控PriorityClass使用情况
  - 避免低优先级关键服务被误杀

六、存储调度：有状态服务的命脉

Volume拓扑约束

volumeClaimTemplates:
- metadata:
    name: data
  spec:
    storageClassName: local-ssd
    accessModes: [ "ReadWriteOnce" ]
    resources:
      requests:
        storage: 100Gi

绑定策略：
- WaitForFirstConsumer（延迟绑定）
- Immediate（立即绑定）

跨可用区存储

allowedTopologies:
- matchLabelExpressions:
  - key: topology.kubernetes.io/zone
    values: [east-1a, east-1b]

七、高级调度策略

拓扑分布约束

topologySpreadConstraints:
- maxSkew: 1
  topologyKey: zone
  whenUnsatisfiable: ScheduleAnyway
  labelSelector:
    matchLabels:
      app: web

平衡维度：节点/可用区/地域

自定义调度器
```
spec:
  schedulerName: my-custom-scheduler
```
- 适用场景：
  - 机器学习任务调度
  - 批处理作业优化

八、生产环境避坑指南

典型问题	根因分析	解决方案
Pod长期Pending	资源不足/亲和性冲突	检查Events日志
节点负载不均	未配置资源权重	调整Scoring策略
关键Pod被抢占	未设置preemptionPolicy	配置抢占保护策略
存储绑定失败	拓扑约束冲突	使用延迟绑定策略

九、调度可视化工具

调度过程追踪

kubectl get events --field-selector involvedObject.kind=Pod

调度器状态监控

# 查看调度器指标
kubectl get --raw /metrics | grep scheduler

调度决策记录

# 启用调度器日志
- --v=5  # 日志级别

掌握Pod调度策略需要理解业务需求与集群特性的平衡。建议通过以下步骤建立调度体系：1）定义资源规范 2）制定亲和性策略 3）设置隔离方案 4）配置监控告警。记住：没有完美的调度策略，只有最适合业务场景的解决方案。

posted on 2025-03-04 17:24 Leo_Yide 阅读(199) 评论(0) 收藏举报