2018 年 4月 23 日随笔档案 - Earendil

2018年4月23日

摘要： SGD:现在的SGD一般都指mini-batch gradient descent 最小批量梯度下降缺点：（正因为有这些缺点才让这么多大神发展出了后续的各种算法）选择合适的learning rate比较困难 - 对所有的参数更新使用同样的learning rate。对于稀疏数据或者特征，有时我们阅读全文

posted @ 2018-04-23 09:11 Earendil 阅读(756) 评论(0) 推荐(0)

公告