grok生成(2026年2月25日14:49:40)
官网
https://github.com/intel/xpumanager
xpu-smi 简易使用手册
1. 查询当前设备卡(先确认有哪些 GPU)
# 查看所有 GPU 基本信息
sudo xpu-smi discovery
# 查看单张卡的详细信息(替换 0/1/2 为 Device ID)
sudo xpu-smi discovery -d 0
sudo xpu-smi discovery -d 1
sudo xpu-smi discovery -d 2
你的设备对应:
- Device 0 & 1:DG1 独立显卡(有 4GB 专用显存,重点监控对象)
- Device 2:集成显卡(UHD 770,共享系统内存)
2. 查看支持的监控指标列表(了解能查什么)
sudo xpu-smi dump -h
常用关键指标(针对 DG1 独立卡有效):
- 0:GPU 使用率 (%)
- 2:核心频率 (MHz)
- 3:核心温度 (°C)
- 5:显存利用率 (%)
- 17:显存带宽利用率 (%)(可能 N/A)
- 18:已用显存 (MiB)(DG1 上有效,空闲 ≈20–50 MiB)
3. 实时查询常规监控内容(最常用组合)
推荐监控组合(使用率 + 温度 + 显存):
# 针对 DG1 第一张卡(Device 0)
sudo xpu-smi dump -d 0 -m 0,2,3,5,17,18 -i 1
参数说明:
-d 0→ 指定设备(可换成 1 或 -1 表示所有设备)-m 0,2,3,5,17,18→ 查询这些指标-i 1→ 每 1 秒刷新一次(可改成 2、5 秒)
只看使用率 + 显存(最简洁):
sudo xpu-smi dump -d 0 -m 0,18 -i 2
同时监控两张 DG1 卡
sudo xpu-smi dump -d 0,1 -m 0,18
快速参考表(常用命令一览)
| 目的 | 命令示例 |
|---|---|
| 列出所有 GPU | sudo xpu-smi discovery |
| 查看单卡详情 | sudo xpu-smi discovery -d 0 |
| 实时监控使用率+温度+显存 | sudo xpu-smi dump -d 0 -m 0,3,18 -i 2 |
| 记录到文件(30 分钟) | sudo xpu-smi dump -d 0 -m 0,3,18 -i 5 -n 360 > log.txt |
| 同时监控两张 DG1 | sudo xpu-smi dump -d 0,1 -m 0,18 -i 3 |
小提示:
- 空闲时:使用率 0%、显存 ≈20 MiB、温度 35–40°C 很正常。
- 负载后:使用率 >20%、显存 >几百 MiB、温度上升才说明在用 DG1。
- 如果指标 N/A 或不动:确认任务跑在 DG1 上(可用
vainfo、clinfo检查支持)。
浙公网安备 33010602011771号