摘要: https://www.cnblogs.com/setdong/p/16508415.html 1. Rprop 在 full-batch optimization 中, 一些梯度可能很小, 而另一些梯度可能很大, 故难以寻找一个 global 学习率. 可以使用梯度的 sign 解决这个问题, 保 阅读全文
posted @ 2022-07-23 03:27 李斯赛特 阅读(1104) 评论(0) 推荐(0) 编辑