aiops 使用到的技术

我给你整理招行智能告警中心里,真正落地用到的机器学习/深度学习技术,全部是AIOps告警场景实战款,不讲虚的,直接对应「异常检测→降噪→根因定位」全流程:

一、时序指标异常检测(核心 ML 技术)

  1. 单分类异常检测

    • 孤立森林(Isolation Forest)
    • 一类SVM(One-Class SVM)
      → 作用:识别指标突刺、跳变、缓慢漂移,适合无标签场景。
  2. 时序周期性分解算法

    • STL 分解(Season-Trend-Loess)
    • 季节性时序分解
      → 作用:自动学习日/周/月周期,区分“正常波动”和“真异常”,大幅降误报。
  3. 鲁棒统计异常检测

    • 改进 3σ、Z-score
    • MAD(中位数绝对偏差)
      → 作用:金融系统抗噪强,不被尖峰数据带偏。
  4. 时序预测类模型

    • ARIMA / SARIMA
    • LSTM / GRU(短时序预测)
      → 作用:预测下一刻指标,提前发现偏离。

二、告警智能聚类 & 降噪(ML 核心)

  1. 无监督聚类

    • DBSCAN(密度聚类,最常用)
    • K-Means
      → 作用:把同一故障引发的几百条雪崩告警,聚成1条事件。
  2. 告警文本相似度

    • TF-IDF
    • Word2Vec(告警日志向量化)
    • 余弦相似度
      → 作用:日志、告警信息自动去重、合并。
  3. 关联规则挖掘

    • Apriori、FP-Growth
      → 作用:学习哪些告警经常一起出现,实现智能抑制。

三、根因定位(RCA)用到的 ML 技术

  1. 图神经网络(GNN)

    • GCN / GraphSAGE
      → 作用:结合服务拓扑、依赖关系,定位故障传播路径。
  2. 根因排序模型

    • 随机森林
    • XGBoost / LightGBM
      → 作用:根据时间先后、关联强度、影响范围输出Top-N根因。
  3. 因果推断(高阶)
    → 作用:区分“伴随告警”和“真正根因”,金融级场景非常关键。

四、特征工程(AIOps 机器学习的灵魂)

  • 时序统计特征:均值、方差、斜率、波动率、周期强度
  • 多源融合特征:指标+日志+拓扑+变更+业务流量
  • 时间上下文特征:高峰/低谷、变更时段、节假日

极简总结(面试直接背)

招行智能告警中心的机器学习技术栈就4类:

  1. 时序异常检测(孤立森林、STL分解、LSTM)
  2. 告警聚类降噪(DBSCAN、文本向量化、关联规则)
  3. 根因定位(GNN、XGBoost、因果推断)
  4. 时序预测(ARIMA、鲁棒统计)

全部围绕:降误报、压告警、快定根因

posted @ 2026-02-10 15:07  wuyingchun1987  阅读(0)  评论(0)    收藏  举报