k8s aiops 算法

我给你一份最精炼、只讲算法、直接对应K8s场景的清单,从简单到高阶,你拿去学习/面试/落地都能用。

K8s AIOps 核心算法(极简版)

1. 入门:统计 & 规则(80% 故障靠它)

  • 3σ、IQR(异常检测)
  • 滑动窗口 MA/EMA(指标平滑)
  • 分位数、动态阈值
  • 时间窗聚合(告警雪崩)
  • 决策树、规则引擎(根因初判)

用途:Pod 重启、OOM、节点高负载、磁盘满、网络突增。


2. 中级:异常检测(K8s 真正 AI 起点)

  • 孤立森林 Isolation Forest
  • LOF / HBOS(密度异常)
  • COPOD(轻量、高维指标友好)
  • ADTK(时序突变)
  • Prophet / SARIMA(预测负载)

用途
CPU/内存/网络/磁盘 无规则异常、流量突刺、延迟抖动、Pod 异常行为。


3. 中高级:告警聚类 & 根因排序

  • DBSCAN(告警聚类)
  • TF-IDF + 余弦相似度(告警文本)
  • 互信息 MIC / 皮尔逊相关
  • XGBoost / LightGBM(特征重要性 → 根因TopN)

用途
K8s 雪崩告警去重、定位根因告警、输出根因Top5。


4. 高阶:K8s 拓扑 + 因果(大厂 RCA)

  • PageRank(拓扑根因打分)
  • PC 算法(构建因果图)
  • LiNGAM(线性因果)
  • 知识图谱推理(故障传播路径)

用途
定位谁是根节点:
是 Node 挂 → Pod 挂 → Service 挂
还是 Service 异常 → Pod 重启 → Node 负载高


5. 前沿:大模型 + K8s

  • LLM 日志语义解析
  • LLM 事件理解
  • 自然语言根因总结
  • 自动生成排查命令

你最该掌握的 K8s AIOps 必学算法TOP8

  1. 3σ / 动态阈值
  2. Isolation Forest(孤立森林)
  3. Prophet
  4. ADTK(时序突变)
  5. DBSCAN(告警聚类)
  6. XGBoost(根因排序)
  7. MIC 互信息
  8. PC 算法(因果)

posted @ 2026-02-11 15:48  wuyingchun1987  阅读(10)  评论(0)    收藏  举报