管理和优化显存 深度学习 训练
训练的时候 常常会 爆显存
数据集 -- 大
模型复杂 -- 计算繁琐 参数多
优化器 -- 状态信息存储
1、监视
TensorBoard 或PyTorch Lightning
2、分批处理数据
Data Loader 数据集分批加载到内存,降低每轮训练数据的显存占用
3、梯度累积
几个批次的数据上累积梯度,然后一次性更新模型参数,减少每轮训练的梯度显存占用。
4、优化模型结构和参数
减少模型的结构复杂度,减少参数数量,降低模型的显存占用。
还可优化模型的其他参数,如学习率、动量等,减少每轮训练的优化器状态的显存占用。

浙公网安备 33010602011771号