王老头

导航

【原】Caffe 超参数学习率learning_rate

关于超参数学习率lr的设置问题,对训练效果影响是非常大的,下面记录一下关于学习率设置的trick。

1.learning_rate的问题,若在用step policy,下面这四个参数,都需要调一下

1 lr_policy: "step"
2 stepsize: 100000
3 gamma: 0.8

其中,gamma值越大,意味着lr递减速度越慢。同时,stepsize的大小跟你的batch_size是有较大关系的。

stepsize是指多少个迭代更新一次learning_rate, 这就意味着stepsize*batch_size个样本后,你的学习率的值就变一次。

2.训练过程中,正确率时高时低是很正常的现象,但是总体上是要下降的。

观察loss值的趋势,如果迭代几次以后一直在增大,最后变成nan,那就是发散了,需要考虑减小训练速率,或者是调整其他参数。

数据不能太少,如果太少的话也很容易发散。

3.

posted on 2018-03-06 09:39  王老头  阅读(339)  评论(0)    收藏  举报