Ubuntu服务器常用指令
1.查看系统状态
查看GPU状态:nvidia-smi
实时显示:watch -n 1 nvidia-smi
查看CPU内存:top
监控内存:htop -d=0.1
查看自己的CUDA使用的PID:fuser -v /dev/nvidia*
2.ps命令(Process Status)
显示所有当前进程:ps -ax
查看指定用户user_name的进程:ps -u user_name
查看指定进程pid_num的具体信息:ps -p pid_num
查看使用python命令的进程:ps -aux | grep python
查看pid_num进程属于哪个用户:ps u pid_num
3.终端指定GPU、后台运行python程序、输出到日志文件
CUDA_VISIBLE_DEVICES=0 nohup python -u test.py > test.log 2>&1 &
4.程序指定多GPU并行训练
import os
os.environ["CUDA_VISIBLE_DEVICES"] = '0,1,2'
import torch
model = torch.nn.DataParallel(model).cuda()
5.关闭进程
kill -9 pid
6.查看日志
cat log.log | tail -n 10
7.查看自己的所有进程
ps -o ruser=xxxxxxxxxxxxxxxxxxx -e -o pid,ppid,c,stime,tty,time,cmd | grep 用户名