深度学习训练踩坑记

1. 使用caffe训练网络时，如果使用到batch normalization层，要注意 use_global_status参数，最好从prototxt文件中移走这个参数。

2. 初始化方式比较重要，尤其是最后若干层，因为它们会影响loss的范围, 而loss又会通过学习率影响参数的更新。如果目标输出范围在[0,1], 那么weight filler 设置为{ guassian, std=0.001}, 可能要好于 xavier.