摘要: SGD:现在的SGD一般都指mini-batch gradient descent 最小批量梯度下降 缺点:(正因为有这些缺点才让这么多大神发展出了后续的各种算法) 选择合适的learning rate比较困难 - 对所有的参数更新使用同样的learning rate。对于稀疏数据或者特征,有时我们 阅读全文
posted @ 2018-04-23 09:11 Earendil 阅读(700) 评论(0) 推荐(0) 编辑