公告

06 2020 档案

摘要：为什么LSTM可以防止梯度消失？从反向传播的角度分析本文原文链接：https://weberna.github.io/blog/2017/11/15/LSTM-Vanishing-Gradients.html LSTM：温和的巨人相比于RNN，虽然LSTM（或者GRU）看上去复杂而臃肿，但是LS 阅读全文

posted @ 2020-06-12 16:11 hejunlin 阅读(3359) 评论(0) 推荐(0)

机器学习中的正则化

摘要：机器学习中使用正则化来防止过拟合是什么原理？什么是过拟合？在训练集上拟合非常好，在测试集上泛化非常差。另一种说法是，当我们提高在训练数据上的表现时，在测试数据上反而下降。过拟合现象有多种解释：经典的是bias-variance decomposition ，但个人认为这种解释更加倾向于直观理阅读全文

posted @ 2020-06-02 20:16 hejunlin 阅读(652) 评论(0) 推荐(0)

从 SGD 到 Adam —— 常见优化算法总结

摘要：1 概览虽然梯度下降优化算法越来越受欢迎，但通常作为黑盒优化器使用，因此很难对其优点和缺点的进行实际的解释。本文旨在让读者对不同的算法有直观的认识，以帮助读者使用这些算法。在本综述中，我们介绍梯度下降的不同变形形式，总结这些算法面临的挑战，介绍最常用的优化算法，回顾并行和分布式架构，以及调研用于优阅读全文

posted @ 2020-06-01 20:23 hejunlin 阅读(2418) 评论(0) 推荐(0)