深度学习训练踩坑记

1. 使用caffe训练网络时,如果使用到batch normalization层, 要注意 use_global_status参数,最好从prototxt文件中移走这个参数。

2. 初始化方式比较重要,尤其是最后若干层,因为它们会影响loss的范围, 而loss又会通过学习率影响参数的更新。如果目标输出范围在[0,1], 那么weight filler 设置为{ guassian, std=0.001}, 可能要好于 xavier.

posted on 2018-09-30 19:42  兔子二  阅读(194)  评论(0编辑  收藏  举报

导航