随笔分类 -  深度学习

摘要:torch.optim.lr_scheduler提供了几种方式根据epoch调整学习率,torch.optim.lr_scheduler.ReduceLROnPlateau允许使用一些验证规则动态降低学习率,学习率调整应该在Optimizer更新后应用。 1. Lambda LR 将学习率设置为给定 阅读全文
posted @ 2022-05-19 16:00 灵客风 阅读(446) 评论(0) 推荐(0)
摘要:首先需要使用Anaconda安装python环境,推荐使用Miniconda,Miniconda可以从以下两个网址进行下载,选择对应的版本安装即可。 清华源 https://mirrors.tuna.tsinghua.edu.cn/anaconda/miniconda/ 官方 https://doc 阅读全文
posted @ 2022-05-18 11:19 灵客风 阅读(107) 评论(0) 推荐(0)
摘要:DDP Overview 在开始介绍Pytorch分布式训练之前,需要首先理解有关于分布式训练的一些概念: master node:主GPU,负责同步,模型加载,拷贝,写日志等操作。 process group:在K个GPU上训练/测试模型,则K个进程形成一个组,该组由backend支持,Pytor 阅读全文
posted @ 2022-04-26 18:09 灵客风 阅读(736) 评论(0) 推荐(0)
摘要:在服务器上训练模型,Kill掉进程后,显存仍被占用,使用top和nvidia-smi命令均查找不到进程,如图: 🎯 解决方法:使用命令 fuser -v /dev/nvidia* 查找进程,然后 sudo kill -9 PID 将进程结束掉 阅读全文
posted @ 2022-04-15 11:44 灵客风 阅读(1459) 评论(0) 推荐(0)