GPU 监控指标

 

 
exporter 指标 说明   示例 示例说明
gpu-exporter nvidia_gpu_num_devices 节点上GPU总数量      
gpu-exporter nvidia_gpu_allocated_num_devices 节点已经分配的GPU数量 节点 nvidia_gpu_allocated_num_devices{node_name}  
gpu-exporter nvidia_gpu_memory_total_bytes 每张 NVIDIA GPU 的总显存容量(以字节为单位)

nvidia_gpu_memory_used_bytes / nvidia_gpu_memory_total_bytes

计算显存使用率 
gpu-exporter nvidia_gpu_memory_allocated_bytes 节点已经被分配的显存大小,单位是 字节(bytes)  节点    
gpu-exporter nvidia_gpu_memory_used_bytes  每张 NVIDIA GPU 当前正在使用的显存大小,单位是 字节(bytes)  卡  nvidia_gpu_memory_used_bytes / nvidia_gpu_memory_total_bytes  计算显存使用率
           
           
gpu-exporter nvidia_gpu_temperature_celsius

 每张 NVIDIA GPU 当前的核心温度(单位:摄氏度,°C)

空载/轻载 30 – 50
正常工作 50 – 75
高负载/警戒 75 – 85
过热风险 85+(应降频或报警)

卡     

gpu-exporter

nvidia_gpu_duty_cycle

GPU卡使用率 nvidia_gpu_duty_cycle{gpu="0", node_name="aaa"} 75

表示在节点 aaa 上的 GPU 0 的使用率为 75%

gpu-exporter nvidia_gpu_power_usage_milliwatts  每张 NVIDIA GPU 当前的功耗,单位是 毫瓦(mW)      
posted @ 2025-05-27 17:47  Hello_worlds  阅读(118)  评论(0)    收藏  举报