指定GPU运行和训练 python程序、深度学习单卡、多卡训练GPU设置

📘 查看服务器显卡使用情况
一、命令行运行python程序时

首先查看哪些GPU空闲，nvidia-smi显示当前GPU使用情况

nvidia-smi

如下图所示：服务器中的两个显卡，编号为0、1 . 都被同一个进程 PID 3016 占用

图示基础信息

GPU：GPU 编号；
Name：GPU 型号；
Persistence-M：持续模式的状态。持续模式虽然耗能大，但是在新的GPU应用启动时，花费的时间更少，这里显示的是off的状态；
Fan：风扇转速，从0到100%之间变动；
Temp：温度，单位是摄氏度；
Perf：性能状态，从P0到P12，P0表示最大性能，P12表示状态最小性能（即 GPU 未工作时为P0，达到最大工作限度时为P12）。
Pwr:Usage/Cap：能耗；
Memory Usage：显存使用率；
Bus-Id：涉及GPU总线的东西 
Disp.A：Display Active，表示GPU的显示是否初始化；
Volatile GPU-Util：浮动的GPU利用率；
Uncorr. ECC：Error Correcting Code，错误检查与纠正；
Compute M：compute mode，计算模式

📘 指定空闲的GPU运行python程序

CUDA_VISIBLE_DEVICES=0,1 python test.py

📘 在python程序中指定GPU（通常使用该设置）
在 train.py 最上方，设定使用的GPU 编号，当这两行代码注释掉时，训练会自动使用该服务器的所有资源

import os
os.environ["CUDA_VISIBLE_DEVICES"] = "0,1"

每 10s 显示一次GPU使用情况, Xshell 中 CTRL + C 中止：

watch -n 10 nvidia-smi

每 2s 刷新一次GPU使用情况, Xshell 或者 Shell 窗口中 CTRL + C 中止：

nvidia-smi -l

posted @ 2022-11-23 19:48 关逍遥阅读(1531) 评论(0) 收藏举报

刷新页面返回顶部

逍遥

指定GPU运行和训练 python程序 、深度学习单卡、多卡 训练GPU设置

公告

指定GPU运行和训练 python程序、深度学习单卡、多卡训练GPU设置