不积跬步,无以至千里;不积小流,无以成江海。——荀子

  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

06 2020 档案

摘要:为什么LSTM可以防止梯度消失?从反向传播的角度分析 本文原文链接:https://weberna.github.io/blog/2017/11/15/LSTM-Vanishing-Gradients.html LSTM:温和的巨人 相比于RNN,虽然LSTM(或者GRU)看上去复杂而臃肿,但是LS 阅读全文
posted @ 2020-06-12 16:11 hejunlin 阅读(3359) 评论(0) 推荐(0)

摘要:机器学习中使用正则化来防止过拟合是什么原理? 什么是过拟合?在训练集上拟合非常好,在测试集上泛化非常差。另一种说法是, 当我们提高在训练数据上的表现时,在测试数据上反而下降。 过拟合现象有多种解释: 经典的是bias-variance decomposition ,但个人认为这种解释更加倾向于直观理 阅读全文
posted @ 2020-06-02 20:16 hejunlin 阅读(652) 评论(0) 推荐(0)

摘要:1 概览 虽然梯度下降优化算法越来越受欢迎,但通常作为黑盒优化器使用,因此很难对其优点和缺点的进行实际的解释。本文旨在让读者对不同的算法有直观的认识,以帮助读者使用这些算法。在本综述中,我们介绍梯度下降的不同变形形式,总结这些算法面临的挑战,介绍最常用的优化算法,回顾并行和分布式架构,以及调研用于优 阅读全文
posted @ 2020-06-01 20:23 hejunlin 阅读(2418) 评论(0) 推荐(0)