【原】Caffe 超参数学习率learning_rate
关于超参数学习率lr的设置问题,对训练效果影响是非常大的,下面记录一下关于学习率设置的trick。
1.learning_rate的问题,若在用step policy,下面这四个参数,都需要调一下
1 lr_policy: "step" 2 stepsize: 100000 3 gamma: 0.8
其中,gamma值越大,意味着lr递减速度越慢。同时,stepsize的大小跟你的batch_size是有较大关系的。
stepsize是指多少个迭代更新一次learning_rate, 这就意味着stepsize*batch_size个样本后,你的学习率的值就变一次。
2.训练过程中,正确率时高时低是很正常的现象,但是总体上是要下降的。
观察loss值的趋势,如果迭代几次以后一直在增大,最后变成nan,那就是发散了,需要考虑减小训练速率,或者是调整其他参数。
数据不能太少,如果太少的话也很容易发散。
3.