摘要: https://www.jianshu.com/p/aebcaf8af76e 1、sgd 2、动量(Momentum) 3、adagrad 大多数的框架实现采用默认学习率α=0.01即可完成比较好的收敛。 4、RMSprop , 其中: γ是遗忘因子(或称为指数衰减率),依据经验,默认设置为0.9。 阅读全文