常用Prometheus查询

DCGM_FI_DEV_FB_FREE / 1024        #节点GPU剩余量展示图
DCGM_FI_DEV_FB_USED / 1024        #节点GPU使用量展示图
node:node_cpu_utilisation:avg1m{node=~"(k8s-work-gpu02|k8s-work01)"} > 0.88 #cpu使用率告警
node:disk_space_utilization:ratio{node=~"(k8s-work01|k8s-ops02)"} >= 0.88 #磁盘使用率告警
node:node_memory_utilisation:{node=~"(k8s-work01|k8s-ops02)"} > 0.88 #内存使用率告警
sum by(instance)(DCGM_FI_DEV_FB_USED) > 14 *1024 #gpu使用率告警
sum(changes(kube_pod_container_status_restarts_total{namespace="rtvt"}[3m])) by (namespace, pod) >= 1 #pod发生重启告警

 

posted @ 2023-10-30 15:33  ZANAN  阅读(61)  评论(0编辑  收藏  举报