摘要: 梯度下降算法 梯度下降的框架主要分三种:1,全量梯度下降。每次使用全部的样本来更新模型参数,优点是收敛方向准确,缺点是收敛速度慢,内存消耗大。2,随机梯度下降。每次使用一个样本来更新模型参数,优点是学习速度快,缺点是收敛不稳定。3,批量梯度下降。每次使用一个batchsize的样本来更新模型参数,平 阅读全文
posted @ 2019-02-23 22:29 深夜十二点三十三 阅读(926) 评论(0) 推荐(0) 编辑
摘要: 1.什么是过拟合? 过拟合(overfitting)是指在模型参数拟合过程中的问题,由于训练数据包含抽样误差,训练时,复杂的模型将抽样误差也考虑在内,将抽样误差也进行了很好的拟合。 具体表现就是最终模型在训练集上效果好;在测试集上效果差。模型泛化能力弱。 2、产生过拟合根本原因: (1)观察值与真实 阅读全文
posted @ 2019-02-23 20:37 深夜十二点三十三 阅读(10745) 评论(0) 推荐(1) 编辑
摘要: 正则化方法有如下几种: 一、参数范数惩罚 其中L2、L1参数正则化介绍与关系如下 1、L2 参数正则化 直观解释如下: 2、L1 参数正则化 二、获取更多数据(扩样本) 避免过拟合的基本方法之一是从数据源获得更多数据,当训练数据有限时,可以通过数据增强(data augmentation)变换原有的 阅读全文
posted @ 2019-02-23 20:14 深夜十二点三十三 阅读(1315) 评论(0) 推荐(0) 编辑
摘要: 论文名字:Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift 论文地址:https://arxiv.org/abs/1502.03167 BN被广泛应用于深度学习的各 阅读全文
posted @ 2019-02-23 20:13 深夜十二点三十三 阅读(5967) 评论(0) 推荐(0) 编辑
摘要: 避免过拟合的基本方法之一是从数据源获得更多数据,当训练数据有限时,可以通过数据增强(data augmentation)变换原有的数据生成新的数据来扩大训练集。即使拥有大量数据,进行数据增强也是有必要的,因为可以防止神经网络学习到不相干的模式,从根本上提升整体性能。还要注意在使用增强技术的同时,必须 阅读全文
posted @ 2019-02-23 16:46 深夜十二点三十三 阅读(11687) 评论(0) 推荐(0) 编辑
摘要: 一、介绍 本篇文章,我们将讨论所谓的“维度灾难”,并解释在设计一个分类器时它为何如此重要。在下面几节中我将对这个概念进行直观的解释,并通过一个由于维度灾难导致的过拟合的例子来讲解。 考虑这样一个例子,我们有一些图片,每张图片描绘的是小猫或者小狗。我们试图构建一个分类器来自动识别图片中是猫还是狗。要做 阅读全文
posted @ 2019-02-23 15:47 深夜十二点三十三 阅读(638) 评论(0) 推荐(0) 编辑
摘要: 一、现象介绍 靠近输出层的hidden layer 梯度大,参数更新快,所以很快就会收敛; 而靠近输入层的hidden layer 梯度小,参数更新慢,几乎就和初始状态一样,随机分布。 这种现象就是梯度弥散(vanishing gradient problem)。 而在另一种情况中,前面layer的 阅读全文
posted @ 2019-02-23 15:11 深夜十二点三十三 阅读(2094) 评论(0) 推荐(0) 编辑
摘要: 论文地址:https://arxiv.org/pdf/1504.08083.pdf 翻译请移步:https://blog.csdn.net/ghw15221836342/article/details/79549500 背景问题: 1、R-CNN网络训练、测试速度都很慢:R-CNN网络中,一张图经由 阅读全文
posted @ 2019-02-23 11:49 深夜十二点三十三 阅读(433) 评论(0) 推荐(0) 编辑
摘要: 1. 激活函数作用 如下图,在神经元中,输入的 inputs 通过加权,求和后,还被作用了一个函数,这个函数就是激活函数 Activation Function。 如果不用激励函数,每一层输出都是上层输入的线性函数,无论神经网络有多少层,输出都是输入的线性组合。如果使用的话,激活函数给神经元引入了非 阅读全文
posted @ 2019-02-23 10:30 深夜十二点三十三 阅读(2634) 评论(0) 推荐(0) 编辑
摘要: 一、MSE 损失函数推导 前向传播过程: 梯度反向传播公式推导: 定义残差: 则 残差推导如下: 对于最后一层: 广义上,左边项(-(···))是定义的损失函数对其输入(即最后一层神经元值)的导数,右项是sigmoind求导,这两项都是根据实际使用可以替换的。 对于隐藏层: 若去掉下标i,则有 其中 阅读全文
posted @ 2019-02-23 09:18 深夜十二点三十三 阅读(2048) 评论(0) 推荐(0) 编辑