2019 年 2月 23 日随笔档案 - 深夜十二点三十三

2019年2月23日

摘要：梯度下降算法梯度下降的框架主要分三种：1，全量梯度下降。每次使用全部的样本来更新模型参数，优点是收敛方向准确，缺点是收敛速度慢，内存消耗大。2，随机梯度下降。每次使用一个样本来更新模型参数，优点是学习速度快，缺点是收敛不稳定。3，批量梯度下降。每次使用一个batchsize的样本来更新模型参数，平阅读全文

posted @ 2019-02-23 22:29 深夜十二点三十三阅读(926) 评论(0) 推荐(0) 编辑

过拟合、欠拟合及其解决办法

摘要： 1.什么是过拟合？过拟合（overfitting）是指在模型参数拟合过程中的问题，由于训练数据包含抽样误差，训练时，复杂的模型将抽样误差也考虑在内，将抽样误差也进行了很好的拟合。具体表现就是最终模型在训练集上效果好；在测试集上效果差。模型泛化能力弱。 2、产生过拟合根本原因：（1）观察值与真实阅读全文

posted @ 2019-02-23 20:37 深夜十二点三十三阅读(10745) 评论(0) 推荐(1) 编辑

深度学习中的正则化

摘要：正则化方法有如下几种：一、参数范数惩罚其中L2、L1参数正则化介绍与关系如下 1、L2 参数正则化直观解释如下： 2、L1 参数正则化二、获取更多数据（扩样本）避免过拟合的基本方法之一是从数据源获得更多数据，当训练数据有限时，可以通过数据增强（data augmentation）变换原有的阅读全文

posted @ 2019-02-23 20:14 深夜十二点三十三阅读(1315) 评论(0) 推荐(0) 编辑

BN层

摘要：论文名字：Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift 论文地址：https://arxiv.org/abs/1502.03167 BN被广泛应用于深度学习的各阅读全文

posted @ 2019-02-23 20:13 深夜十二点三十三阅读(5967) 评论(0) 推荐(0) 编辑

一些图像数据数据扩充（扩样本）方法

摘要：避免过拟合的基本方法之一是从数据源获得更多数据，当训练数据有限时，可以通过数据增强（data augmentation）变换原有的数据生成新的数据来扩大训练集。即使拥有大量数据，进行数据增强也是有必要的，因为可以防止神经网络学习到不相干的模式，从根本上提升整体性能。还要注意在使用增强技术的同时，必须阅读全文

posted @ 2019-02-23 16:46 深夜十二点三十三阅读(11687) 评论(0) 推荐(0) 编辑

维度灾难与过拟合（转）

摘要：一、介绍本篇文章，我们将讨论所谓的“维度灾难”，并解释在设计一个分类器时它为何如此重要。在下面几节中我将对这个概念进行直观的解释，并通过一个由于维度灾难导致的过拟合的例子来讲解。考虑这样一个例子，我们有一些图片，每张图片描绘的是小猫或者小狗。我们试图构建一个分类器来自动识别图片中是猫还是狗。要做阅读全文

posted @ 2019-02-23 15:47 深夜十二点三十三阅读(638) 评论(0) 推荐(0) 编辑

梯度弥散和梯度爆炸

摘要：一、现象介绍靠近输出层的hidden layer 梯度大，参数更新快，所以很快就会收敛；而靠近输入层的hidden layer 梯度小，参数更新慢，几乎就和初始状态一样，随机分布。这种现象就是梯度弥散（vanishing gradient problem）。而在另一种情况中，前面layer的阅读全文

posted @ 2019-02-23 15:11 深夜十二点三十三阅读(2094) 评论(0) 推荐(0) 编辑

Fast R-CNN论文理解

摘要：论文地址：https://arxiv.org/pdf/1504.08083.pdf 翻译请移步：https://blog.csdn.net/ghw15221836342/article/details/79549500 背景问题： 1、R-CNN网络训练、测试速度都很慢：R-CNN网络中，一张图经由阅读全文

posted @ 2019-02-23 11:49 深夜十二点三十三阅读(433) 评论(0) 推荐(0) 编辑

深度学习激活函数们

摘要： 1. 激活函数作用如下图，在神经元中，输入的 inputs 通过加权，求和后，还被作用了一个函数，这个函数就是激活函数 Activation Function。如果不用激励函数，每一层输出都是上层输入的线性函数，无论神经网络有多少层，输出都是输入的线性组合。如果使用的话，激活函数给神经元引入了非阅读全文

posted @ 2019-02-23 10:30 深夜十二点三十三阅读(2634) 评论(0) 推荐(0) 编辑

反向传播算法推导

摘要：一、MSE 损失函数推导前向传播过程：梯度反向传播公式推导：定义残差：则残差推导如下：对于最后一层：广义上，左边项（-（···））是定义的损失函数对其输入（即最后一层神经元值）的导数，右项是sigmoind求导，这两项都是根据实际使用可以替换的。对于隐藏层：若去掉下标i，则有其中阅读全文

posted @ 2019-02-23 09:18 深夜十二点三十三阅读(2048) 评论(0) 推荐(0) 编辑

深夜十二点三十三

公告