吴恩达深度学习笔记 - 随笔分类(第4页) - 刘通1997

【11】神经网络的优化算法

摘要：优化算法： 1.mini-bitch：如果数据集特别大，把所有的数据一起处理会使训练速度特别慢。mini-bitch就是把数据集平均分成几个部分，然后单独进行处理，选择合理的子数据集大小会使训练速度快很多。左图为未采用m-b的图像，右图是采用的。可以看出采用之后的J并不是一直下降的，但是整体下降阅读全文

posted @ 2020-02-25 13:23 刘通1997 阅读(415) 评论(0) 推荐(0)

【10】梯度消失和爆炸；梯度检验

摘要：梯度消失或爆炸：如果一个神经网络的深度很大，即层数很多。那么即使是很小的w(大于1)，那么y帽也会特别大（指数级增长），如果w很接近1但是小于1，y帽也会特别小（指数级减小），并且与层数相关的导数和梯度函数也是呈指数增长或指数下降。如果L的激活函数或梯度函数以指数级递增或递减，那么他们会变得极大或阅读全文

posted @ 2020-02-25 13:20 刘通1997 阅读(289) 评论(0) 推荐(0)

【9】归一化输入与标准化

摘要：提高训练速度的方法：归一化输入假设数据集的每一个训练样本只有两个特征x1、x2，那么训练集：原始数据集绘制出的图形如图所示，要对其进行标准化分为两步： 1、对训练集进行零均值化处理，顾名思义，也就是处理后的数据集的均值为零。2、归一化方差。即使方差变为1。分步讲解： 1、怎样来使均值变为0呢阅读全文

posted @ 2020-02-25 13:19 刘通1997 阅读(492) 评论(0) 推荐(1)

【8】正则化

摘要：如果数据被过度拟合，导致方差过大，那么就可以用正则化： L2正则化（最常用的方法）：在之前的成本函数 J=后面加上拉姆他是个参数，是人为定义的。m是训练样本数量，是权重矩阵w的所有元素的平方和。L是神经网络的层数，因为每层都有一个w矩阵，所以一共有L个W矩阵。正则化后的dw变为左图这个，左图的阅读全文

posted @ 2020-02-25 13:17 刘通1997 阅读(212) 评论(0) 推荐(0)

【7】偏差、方差；过拟合、欠拟合

摘要：Bias(偏差) 模型在样本上的输出与真实值之间的误差，即模型本身的精准度，反应出算法的拟合能力。 Variance(方差) 模型每一次输出结果与模型输出期望之间的误差，即模型的稳定性，反应出预测的波动情况。偏差与方差的关系偏差与方差之间按照高低，可以组合成四种关系，如下图所示左图为欠拟合，偏阅读全文

posted @ 2020-02-25 13:12 刘通1997 阅读(1588) 评论(0) 推荐(0)

【6】深层神经网络的前向与反向传播

摘要：深层神经网络（Deep L-layer neural network）目前为止我们已经学习了只有一个单独隐藏层的神经网络的正向传播和反向传播，还有逻辑回归，并且你还学到了向量化，这在随机初始化权重时是很重要。目前所要做的是把这些理念集合起来，就可以执行你自己的深度神经网络。复习下前面21个笔记阅读全文

posted @ 2020-02-25 13:11 刘通1997 阅读(487) 评论(0) 推荐(0)

【5】激活函数的选择与权值w的初始化

摘要：激活函数的选择：西格玛只在二元分类的输出层还可以用，但在二元分类中，其效果不如tanh，效果不好的原因是当Z大时，斜率变化很小，会导致学习效率很差，从而很影响运算的速度。绝大多数情况下用的激活函数是ReLu，带泄露的ReLu效果更好，但并不常用。使用非线性激活函数的原因：如果用线性激活函数，那么阅读全文

posted @ 2020-02-25 12:54 刘通1997 阅读(366) 评论(0) 推荐(0)

【4】计算神经网络的输出

摘要：通过这4行代码即可实现神经网络的输出。如果用for循环进行代码实现：使用向量化的方法：训练集一共有m个样本，每个样本有n个特征值。把训练集所有的特征值放在一起构成X矩阵。 Z[1]是所有样本第一层的输出值。行数与第一层的节点数相同A[1]是所有样本第一层的经过西格玛处理的输出值。阅读全文

posted @ 2020-02-25 12:52 刘通1997 阅读(628) 评论(0) 推荐(0)

【3】Python中的广播

摘要：Python-numpy中有一种很高效的方法：广播。下面介绍一下广播。实例：对于这个矩阵，如果想求每列元素的和，怎么才能不用for循环？ (1,4)指的是一行四列的矩阵；axis决定了是横向（行）求和还是竖向（列）求和。为0时竖向，1时横向；在矩阵前*100，是让矩阵里面的数为百分数；resha 阅读全文

posted @ 2020-02-25 12:51 刘通1997 阅读(1007) 评论(0) 推荐(0)

【2】梯度下降法与向量化

摘要：梯度下降法：埃尔法为学习率，是人为定义的，w:为更新后的w。b:为更新后的b Logistic回归的梯度下降法梯度下降法代码逻辑如下，但该代码有缺点，因为这里面有两个for循环，而for循环会使神经网络效率变低。所以要想办法避免FOR循环。向量化就是一个很好的方法。对于向量化计算u的方法：首阅读全文

posted @ 2020-02-25 12:43 刘通1997 阅读(362) 评论(0) 推荐(0)

【1】Logistic回归

摘要：Logistic回归在Logistic回归中，损失函数L定义为成本函数 J 损失函数是单个训练样本的误差，而成本函数是所有训练样本误差的平均值。之所以选择这个损失函数，是因为该损失函数L与w、b的图像为下图，是非凸的，即只有一个极小值点阅读全文

posted @ 2020-02-24 15:44 刘通1997 阅读(211) 评论(0) 推荐(0)

刘通1997

随笔分类 - 吴恩达深度学习笔记

公告