GPU 监控指标
| exporter | 指标 | 说明 | 示例 | 示例说明 | |
| gpu-exporter | nvidia_gpu_num_devices | 节点上GPU总数量 | |||
| gpu-exporter | nvidia_gpu_allocated_num_devices | 节点已经分配的GPU数量 | 节点 | nvidia_gpu_allocated_num_devices{node_name} | |
| gpu-exporter | nvidia_gpu_memory_total_bytes | 每张 NVIDIA GPU 的总显存容量(以字节为单位) | 卡 |
nvidia_gpu_memory_used_bytes / nvidia_gpu_memory_total_bytes |
计算显存使用率 |
| gpu-exporter | nvidia_gpu_memory_allocated_bytes | 节点已经被分配的显存大小,单位是 字节(bytes) | 节点 | ||
| gpu-exporter | nvidia_gpu_memory_used_bytes | 每张 NVIDIA GPU 当前正在使用的显存大小,单位是 字节(bytes) | 卡 | nvidia_gpu_memory_used_bytes / nvidia_gpu_memory_total_bytes | 计算显存使用率 |
| gpu-exporter | nvidia_gpu_temperature_celsius |
每张 NVIDIA GPU 当前的核心温度(单位:摄氏度,°C) 空载/轻载 30 – 50 |
卡 | ||
|
gpu-exporter |
nvidia_gpu_duty_cycle |
GPU卡使用率 | 卡 | nvidia_gpu_duty_cycle{gpu="0", node_name="aaa"} 75 |
表示在节点 |
| gpu-exporter | nvidia_gpu_power_usage_milliwatts | 每张 NVIDIA GPU 当前的功耗,单位是 毫瓦(mW) |

浙公网安备 33010602011771号