摘要: SGD SGD是深度学习中最常见的优化方法之一,虽然是最常使用的优化方法,但是却有不少常见的问题。 learning rate不易确定,如果选择过小的话,收敛速度会很慢,如果太大,loss function就会在极小值处不停的震荡甚至偏离。每个参数的learning rate都是相同的,如果数据是稀 阅读全文
posted @ 2020-03-15 17:34 Baby-Lily 阅读(1108) 评论(0) 推荐(0) 编辑