随笔列表第6页 - NWNU-LHY

2019年7月18日

摘要： orthogonalization 正交化的概念就是指，将你可以调整的参数设置在不同的正交的维度上，调整其中一个参数，不会或几乎不会影响其他维度上的参数变化，这样在机器学习项目中，可以让你更容易更快速地将参数调整到一个比较好的数值。打个比方，当你开车的时候假设有一个按钮1：0.3angle-0.8 阅读全文

posted @ 2019-07-18 13:10 NWNU-LHY 阅读(155) 评论(0) 推荐(0) 编辑

2019年7月17日

ubuntu之路——day9.3 softmax regression激活函数

摘要： Softmax 用于在深度学习中处理多分类（C > 2）问题，分类器最后的输出单元需要Softmax 函数进行数值处理。关于Softmax 函数的定义如下所示：其中vi表示 vi = z[L] = w[L]a[L-1]+b[L] t = e[Vi] 举个例子：这样就对应着最终分类的四个类别的概率阅读全文

posted @ 2019-07-17 16:09 NWNU-LHY 阅读(140) 评论(0) 推荐(0) 编辑

ubuntu之路——day9.2 Covariate shift问题和Batch Norm的解决方案

摘要： Batch Norm的意义：Covariate shift的问题在传统的机器学习中，我们通常会认为source domain和target domain的分布是一致的，也就是说，训练数据和测试数据是满足相同分布的。这是通过训练数据获得的模型能够在测试集上获得好的效果的一个基本保障。 Convari 阅读全文

posted @ 2019-07-17 11:41 NWNU-LHY 阅读(234) 评论(0) 推荐(0) 编辑

ubuntu之路——day9.1 深度学习超参数的调优

摘要：参数重要性：第一阶：α即learning rate 第二阶：momentum中的β，hidden units的数量，mini-batch的大小第三阶：hidden layers的数量，learning rate decay的参数参数选择的方式：一、完全在一定范围内进行随机二、尝试完毕上述随阅读全文

posted @ 2019-07-17 10:33 NWNU-LHY 阅读(240) 评论(0) 推荐(0) 编辑

2019年7月16日

ubuntu之路——day8.5 学习率衰减learning rate decay

摘要：在mini-batch梯度下降法中，我们曾经说过因为分割了baby batch，所以迭代是有波动而且不能够精确收敛于最小值的因此如果我们将学习率α逐渐变小，就可以使得在学习率α较大的时候加快模型训练速度，在α变小的时候使得模型迭代的波动逐渐减弱，最终收敛于一个较小的区域来得到较为精确的结果首先是阅读全文

posted @ 2019-07-16 16:58 NWNU-LHY 阅读(282) 评论(0) 推荐(0) 编辑

ubuntu之路——day8.4 Adam自适应矩估计算法

摘要：基本上讲，Adam就是将day8.2提到的momentum动量梯度下降法和day8.3提到的RMSprop算法相结合的优化算法首先初始化 SdW = 0 Sdb = 0 VdW = 0 Vdb = 0 On iteration t： compute dw，db using current Mini 阅读全文

posted @ 2019-07-16 16:34 NWNU-LHY 阅读(625) 评论(0) 推荐(0) 编辑

ubuntu之路——day8.3 RMSprop

摘要： RMSprop：全称为root mean square prop，提及这个算法就不得不提及上篇博文中的momentum算法首先来看看momentum动量梯度下降法的过程：在RMSprop中： Compute dW,db on the current mini-batch SdW = βSdW 阅读全文

posted @ 2019-07-16 15:49 NWNU-LHY 阅读(178) 评论(0) 推荐(0) 编辑

ubuntu之路——day8.2 深度学习优化算法之指数加权平均与偏差修正，以及基于指数加权移动平均法的动量梯度下降法

摘要：首先感谢吴恩达老师的免费公开课，以下图片均来自于Andrew Ng的公开课指数加权平均法在统计学中被称为指数加权移动平均法，来看下面一个例子：这是伦敦在一些天数中的气温分布图 Vt = βVt-1 + (1 - β)θt β指的是加权系数 0<β<1 θt 指的是当前时刻的温度当β=0.9的阅读全文

posted @ 2019-07-16 15:15 NWNU-LHY 阅读(381) 评论(0) 推荐(0) 编辑

ubuntu之路——day8.1 深度学习优化算法之mini-batch梯度下降法

摘要：所谓Mini-batch梯度下降法就是划分训练集和测试集为等分的数个子集，比如原来有500W个样本，将其划分为5000个baby batch，每个子集中有1000个样本，然后每次对一个mini-batch进行梯度下降 mini-batch大小 = m：极限情况下，当mini-batch的单个子集样阅读全文

posted @ 2019-07-16 11:38 NWNU-LHY 阅读(324) 评论(0) 推荐(0) 编辑

2019年7月15日

ubuntu之路——day7.4 梯度爆炸和梯度消失、初始化权重、梯度的数值逼近和梯度检验

摘要：梯度爆炸和梯度消失： W[i] > 1:梯度爆炸(呈指数级增长) W[i] < 1:梯度消失(呈指数级衰减) *.注意此时的1指单位矩阵，W也是系数矩阵初始化权重： np.random.randn（shape）* np.sqrt（2/n[l-1]） Relu：np.sqrt(2/n[l-1]) T 阅读全文

posted @ 2019-07-15 15:06 NWNU-LHY 阅读(256) 评论(0) 推荐(0) 编辑