k8s DCGM GPU采集指标项说明
dcgm-exporter 采集指标项
https://help.aliyun.com/document_detail/433222.html#section-oin-6mf-6j0
| 指标 | 解释 |
|---|---|
| dcgm_fan_speed_percent | GPU风扇转速占比(%) |
| dcgm_sm_clock | GPU sm 时钟(MHz) |
| dcgm_memory_clock | GPU 内存时钟(MHz) |
| dcgm_gpu_temp | GPU 运行的温度(℃) |
| dcgm_power_usage | GPU 的功率(w) |
| dcgm_pcie_tx_throughput | GPU PCIeTX 传输的字节总数 (kb) |
| dcgm_pcie_rx_throughput | GPU PCIeRX 接收的字节总数 (kb) |
| dcgm_pcie_replay_counter | GPU PCIe重试的总数 |
| dcgm_gpu_utilization | GPU 利用率(%) |
| dcgm_mem_copy_utilization | GPU 内存利用率(%) |
| dcgm_enc_utilization | GPU 编码器利用率(%) |
| dcgm_dec_utilization | GPU 解码器利用率(%) |
| dcgm_xid_errors | GPU 上一个xid错误的值 |
| dcgm_power_violation | GPU 功率限制导致的节流持续时间(us) |
| dcgm_thermal_violation | GPU 热约束节流持续时间(us) |
| dcgm_sync_boost_violation | GPU 同步增强限制,限制持续时间(us) |
| dcgm_fb_free | GPUfb(帧缓存)的剩余(MiB) |
| dcgm_fb_used | GPUfb(帧缓存)的使用(MiB) |

浙公网安备 33010602011771号