Cyclical Learning Rates

学习率的设置是深度学习中一个比较重要的问题,Cyclical Learning Rates(CLR)提出了一种新的方法,即让学习率周期性的变化,而不是像之前的方法那样让学习率单调递减变化.

Cyclical learning rates其实比较简单,只需要3个参数:

 

(1)base_lr:学习率的最小值;

(2)max_lr:学习率的最大值;

(3)stepsize:变化周期的一半.

如何确定max_lr呢?给出了用不同的学习率训练CIFAR-10得到的精确度,如下图硕士,取得最高准确度的学习率的2倍就是max_lr,base_lr是max_lr的1/4~1/3.

通过实验,证明了Cyclical learning rates可以用更少的迭代次数获得更高的精确度.

下面是更加详细的实验结果:

虽然CLR的提出是为了避免自适应学习率(Adaptive learning rates)的巨大计算量,但是在实际中,往往把两者结合起来使用,如MMDetection3D就把CLR和AdamW结合起来使用.

posted @ 2023-01-27 19:30  MSTK  阅读(68)  评论(0编辑  收藏  举报