VSCODE远程连接服务器训练模型,总是出现需要重新连接

现象

网络是稳定的,vscode连接间隔一段时间就断了,需要重新连接,并且训练会被迫停止

参考资料

远程让服务器在后台训练模型命令【nohup, screen】
https://blog.csdn.net/LLY_A_/article/details/119703629

nohup操作
https://www.cnblogs.com/benbenlzw/p/18045988

解决方法尝试

尝试一

nohup python -u main.py &

nohup 不挂起的意思
-u 代表程序不启用缓存,也就是把输出直接放到log中,没这个参数的话,log文件的生成会有延迟
& 最后一个& ,代表该命令在后台执行
image
image
image

此时程序是在跑的,log不会在命令行直接显示,而是在nohup.out上。
并且此时也可以用ctrl+c停止掉进程

尝试二

nohup python -u main.py > log.txt 2>&1 &

"> log.txt":将标准输出保存到 log.txt。
2>&1:将标准错误重定向到标准输出。

image
image

此时是可以不管命令行的了,会返回一个号码,是进程的PID号码

可以使用kill命令杀死进程

kill PID

此时就能成功杀死进程

但是是用同一份日志就不好办

尝试三

nohup python -u main.py 2>&1 &

这个命令输出都是在nohup.out,而且会返回PID号,应该是目前最好的方式了

如果忘记了PID号,可以用

nvidia-smi

准确查询,因为发现htop显示的PID号太多了

posted @ 2025-01-19 10:55  JaxonYe  阅读(261)  评论(0)    收藏  举报