VSCODE远程连接服务器训练模型,总是出现需要重新连接
现象
网络是稳定的,vscode连接间隔一段时间就断了,需要重新连接,并且训练会被迫停止
参考资料
远程让服务器在后台训练模型命令【nohup, screen】
https://blog.csdn.net/LLY_A_/article/details/119703629
nohup操作
https://www.cnblogs.com/benbenlzw/p/18045988
解决方法尝试
尝试一
nohup python -u main.py &
nohup 不挂起的意思
-u 代表程序不启用缓存,也就是把输出直接放到log中,没这个参数的话,log文件的生成会有延迟
& 最后一个& ,代表该命令在后台执行



此时程序是在跑的,log不会在命令行直接显示,而是在nohup.out上。
并且此时也可以用ctrl+c停止掉进程
尝试二
nohup python -u main.py > log.txt 2>&1 &
"> log.txt":将标准输出保存到 log.txt。
2>&1:将标准错误重定向到标准输出。


此时是可以不管命令行的了,会返回一个号码,是进程的PID号码
可以使用kill命令杀死进程
kill PID
此时就能成功杀死进程
但是是用同一份日志就不好办
尝试三
nohup python -u main.py 2>&1 &
这个命令输出都是在nohup.out,而且会返回PID号,应该是目前最好的方式了
如果忘记了PID号,可以用
nvidia-smi
准确查询,因为发现htop显示的PID号太多了
本文来自博客园,作者:JaxonYe,转载请注明原文链接:https://www.cnblogs.com/yechangxin/articles/18679239
侵权必究

浙公网安备 33010602011771号