Fork me on GitHub
摘要: 关于使用SGD时如何选择初始的学习率(这里SGD是指带动量的SGD,momentum=0.9): 训练一个epoch,把学习率从一个较小的值(10-8)上升到一个较大的值(10),画出学习率(取log)和经过平滑后的loss的曲线,根据曲线来选择合适的初始学习率。 从上图可以看出学习率和loss之间 阅读全文
posted @ 2018-07-17 21:54 ranjiewen 阅读(11690) 评论(0) 推荐(0)