Linux命令:查看GPU的信息/状态(nvidia-smi)
查看GPU的信息状态
nvidia-smi 显示GPU的实时状态
名称与对应信息呈纵向排列。可以参考图中我用紫色和蓝色框标注的示例,它们清晰地展示了这种对应关系
1.头部信息:
1.NVIDIA-SMI: 当前使用的 nvidia-smi 工具版本
2.Driver Version: NVIDIA 显卡驱动版本
3.CUDA Version: 安装的 CUDA 工具包版本(用于 GPU 计算)
2.表格信息:
1.GPU: GPU 编号(从 0 开始)
2.Name: GPU 型号(如 NVIDIA GeForce RTX 3090)
3.Persistence-M: 持久模式状态(On 表示开启,Off 表示关闭)
4.Bus-Id: GPU 的总线 ID(用于定位硬件位置)
5.Disp.A: 是否连接显示器(On 表示连接,Off 表示未连接)
6.Volatile Uncorr.ECC:ECC(错误校正)状态(N/A 表示不支持或未启用)
解释[6]:当GPU显存发生错误时,ECC可以检测并尝试纠正错误。如果错误无法纠正,则会记录为Uncorr.ECC
7.Fan: 风扇转速百分比(如 30%)
8.Temp: GPU 当前温度(如 45C)
9.Perf: 性能状态(P0 表示最高性能,P12 表示最低性能)
10.Pwr:Usage /Cap: 当前功耗 / 最大功耗(如 50W / 200W)
11.Memory-Usage: 显存使用情况(如 2500MiB / 8000MiB)
12.GPU-Util: GPU 利用率百分比(如 50%)
13.Compute M.: 计算模式(如 Default 表示默认模式)
解释[13]:用于控制GPU的资源分配方式,优化图形任务和计算任务的优先级。
模式类型:1.Default(默认模式):
GPU可以同时处理图形任务和计算任务。适用于普通用户或需要同时使用图形和计算的场景。
2.Exclusive_Process(独占进程模式):
GPU只能被一个进程独占使用。适用于需要独占 GPU 资源的高性能计算任务。
3.Prohibited(禁止计算模式):
GPU只能用于图形任务,不能用于计算任务。适用于仅需要图形输出的场景。
4.Exclusive_Thread(独占线程模式):
GPU只能被一个线程独占使用。适用于需要更细粒度控制的场景。
3.底部信息:
1.GPU: 表示用的第几块GPU
2.PID: 进程ID,唯一标识系统中运行的每个进程
3.Type: 进程的类型,C 表示计算任务,G 表示图形任务
4.Process name: 运行的进程名称或路径。例如,/usr/bin/python3 或 ./algorithm_server
5.GPU Memory Usage: 进程使用的GPU内存量