[Tool] [监控] Intel 显卡监控工具 xpu-smi 简易使用手册

grok生成(2026年2月25日14:49:40)

官网

https://github.com/intel/xpumanager

xpu-smi 简易使用手册

1. 查询当前设备卡(先确认有哪些 GPU)

# 查看所有 GPU 基本信息
sudo xpu-smi discovery

# 查看单张卡的详细信息(替换 0/1/2 为 Device ID)
sudo xpu-smi discovery -d 0
sudo xpu-smi discovery -d 1
sudo xpu-smi discovery -d 2

你的设备对应

  • Device 0 & 1:DG1 独立显卡(有 4GB 专用显存,重点监控对象)
  • Device 2:集成显卡(UHD 770,共享系统内存)

2. 查看支持的监控指标列表(了解能查什么)

sudo xpu-smi dump -h

常用关键指标(针对 DG1 独立卡有效):

  • 0:GPU 使用率 (%)
  • 2:核心频率 (MHz)
  • 3:核心温度 (°C)
  • 5:显存利用率 (%)
  • 17:显存带宽利用率 (%)(可能 N/A)
  • 18:已用显存 (MiB)(DG1 上有效,空闲 ≈20–50 MiB)

3. 实时查询常规监控内容(最常用组合)

推荐监控组合(使用率 + 温度 + 显存):

# 针对 DG1 第一张卡(Device 0)
sudo xpu-smi dump -d 0 -m 0,2,3,5,17,18 -i 1

参数说明

  • -d 0 → 指定设备(可换成 1 或 -1 表示所有设备)
  • -m 0,2,3,5,17,18 → 查询这些指标
  • -i 1 → 每 1 秒刷新一次(可改成 2、5 秒)

只看使用率 + 显存(最简洁):

sudo xpu-smi dump -d 0 -m 0,18 -i 2

同时监控两张 DG1 卡

sudo xpu-smi dump -d 0,1 -m 0,18

快速参考表(常用命令一览)

目的 命令示例
列出所有 GPU sudo xpu-smi discovery
查看单卡详情 sudo xpu-smi discovery -d 0
实时监控使用率+温度+显存 sudo xpu-smi dump -d 0 -m 0,3,18 -i 2
记录到文件(30 分钟) sudo xpu-smi dump -d 0 -m 0,3,18 -i 5 -n 360 > log.txt
同时监控两张 DG1 sudo xpu-smi dump -d 0,1 -m 0,18 -i 3

小提示

  • 空闲时:使用率 0%、显存 ≈20 MiB、温度 35–40°C 很正常。
  • 负载后:使用率 >20%、显存 >几百 MiB、温度上升才说明在用 DG1。
  • 如果指标 N/A 或不动:确认任务跑在 DG1 上(可用 vainfoclinfo 检查支持)。
posted on 2026-02-25 14:55  风惊庭前叶  阅读(1)  评论(0)    收藏  举报