AlexNet的参数优化

优化算法的参数

论文中使用SGD算法，基本参数设置在前面优化算法的总结中已经提到了。这里要说几个个人体会。

a. 原文中输入的batch数目是256，应该Alex经过调节后的结果，我实际用到的机器性能比较低，内存8G，显存4G，所以不得不就将batch数目往下调到64，以免产生out of memory的错误。这样就需要调节其他的参数来保证数据的收敛。原因是batch比较小，导致本文开篇提到的样本覆盖面过低，产生了非常多的局部极小点，在步长和方向的共同作用下，导致数据产生了震荡，导致了不收敛。

b.在这种情况下，把learning rate调节到了0.02，相当于加大了步长，这样可以在一定程度上避免震荡，可以越过局部极小点往比较大的极值点行走。

c. 对于每一层的bias从1设置为了0.1，在一定程度上限制了激活的大小，这样就限制了某一过大的误差的影响，这样可以避免迭代方向出现过大的变化。

d. 经过b c后，系统终于收敛了，但带来的不良后果就是整个收敛速度变慢，因此还需要增加最大迭代次数，经过测试迭代次数成了从45w修改成了70w。

e. 在整个运行过程中，出现了几次*稳点，20w以及40w左右的时候，因此迭代的learning rate应该随着迭代的接**稳点的时候有意的减小一些，目前是以每10w次减小为1/10，调参数用了5天，最后运行时间为15天。

f. 关于调参策略，上面只是按照一些简单的理解设置的，如果没有一个合理的解释，调参就变成了一个很low的工作。还好发现了好几篇关于调参的论文，主要是优化算法理论方面的，学习完再回来测试一下。

可参考：http://m.blog.csdn.net/article/details?id=48316353

posted @ 2017-03-09 22:41 鹰杰阅读(4117) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

鹰杰

AlexNet的参数优化

公告