随笔分类 - 深度学习
摘要:torch.optim.lr_scheduler提供了几种方式根据epoch调整学习率,torch.optim.lr_scheduler.ReduceLROnPlateau允许使用一些验证规则动态降低学习率,学习率调整应该在Optimizer更新后应用。 1. Lambda LR 将学习率设置为给定
阅读全文
摘要:首先需要使用Anaconda安装python环境,推荐使用Miniconda,Miniconda可以从以下两个网址进行下载,选择对应的版本安装即可。 清华源 https://mirrors.tuna.tsinghua.edu.cn/anaconda/miniconda/ 官方 https://doc
阅读全文
摘要:DDP Overview 在开始介绍Pytorch分布式训练之前,需要首先理解有关于分布式训练的一些概念: master node:主GPU,负责同步,模型加载,拷贝,写日志等操作。 process group:在K个GPU上训练/测试模型,则K个进程形成一个组,该组由backend支持,Pytor
阅读全文
摘要:在服务器上训练模型,Kill掉进程后,显存仍被占用,使用top和nvidia-smi命令均查找不到进程,如图: 🎯 解决方法:使用命令 fuser -v /dev/nvidia* 查找进程,然后 sudo kill -9 PID 将进程结束掉
阅读全文

浙公网安备 33010602011771号