aiops 使用到的技术
我给你整理招行智能告警中心里,真正落地用到的机器学习/深度学习技术,全部是AIOps告警场景实战款,不讲虚的,直接对应「异常检测→降噪→根因定位」全流程:
一、时序指标异常检测(核心 ML 技术)
-
单分类异常检测
- 孤立森林(Isolation Forest)
- 一类SVM(One-Class SVM)
→ 作用:识别指标突刺、跳变、缓慢漂移,适合无标签场景。
-
时序周期性分解算法
- STL 分解(Season-Trend-Loess)
- 季节性时序分解
→ 作用:自动学习日/周/月周期,区分“正常波动”和“真异常”,大幅降误报。
-
鲁棒统计异常检测
- 改进 3σ、Z-score
- MAD(中位数绝对偏差)
→ 作用:金融系统抗噪强,不被尖峰数据带偏。
-
时序预测类模型
- ARIMA / SARIMA
- LSTM / GRU(短时序预测)
→ 作用:预测下一刻指标,提前发现偏离。
二、告警智能聚类 & 降噪(ML 核心)
-
无监督聚类
- DBSCAN(密度聚类,最常用)
- K-Means
→ 作用:把同一故障引发的几百条雪崩告警,聚成1条事件。
-
告警文本相似度
- TF-IDF
- Word2Vec(告警日志向量化)
- 余弦相似度
→ 作用:日志、告警信息自动去重、合并。
-
关联规则挖掘
- Apriori、FP-Growth
→ 作用:学习哪些告警经常一起出现,实现智能抑制。
- Apriori、FP-Growth
三、根因定位(RCA)用到的 ML 技术
-
图神经网络(GNN)
- GCN / GraphSAGE
→ 作用:结合服务拓扑、依赖关系,定位故障传播路径。
- GCN / GraphSAGE
-
根因排序模型
- 随机森林
- XGBoost / LightGBM
→ 作用:根据时间先后、关联强度、影响范围输出Top-N根因。
-
因果推断(高阶)
→ 作用:区分“伴随告警”和“真正根因”,金融级场景非常关键。
四、特征工程(AIOps 机器学习的灵魂)
- 时序统计特征:均值、方差、斜率、波动率、周期强度
- 多源融合特征:指标+日志+拓扑+变更+业务流量
- 时间上下文特征:高峰/低谷、变更时段、节假日
极简总结(面试直接背)
招行智能告警中心的机器学习技术栈就4类:
- 时序异常检测(孤立森林、STL分解、LSTM)
- 告警聚类降噪(DBSCAN、文本向量化、关联规则)
- 根因定位(GNN、XGBoost、因果推断)
- 时序预测(ARIMA、鲁棒统计)
全部围绕:降误报、压告警、快定根因。
浙公网安备 33010602011771号