2019年11月8日
摘要: 深度学习的优化算法,说白了就是梯度下降。每次的参数更新有两种方式。 第一种,遍历全部数据集算一次损失函数,然后算函数对各个参数的梯度,更新梯度。这种方法每更新一次参数都要把数据集里的所有样本都看一遍,计算量开销大,计算速度慢,不支持在线学习,这称为Batch gradient descent,批梯度 阅读全文
posted @ 2019-11-08 20:40 一杯明月 阅读(551) 评论(0) 推荐(0)
摘要: 数据预处理方式 zero-center ,这个挺常用的.X -= np.mean(X, axis = 0) # zero-centerX /= np.std(X, axis = 0) # normalize PCA whitening,这个用的比较少. 训练技巧 要做梯度归一化,即算出来的梯度除以m 阅读全文
posted @ 2019-11-08 15:38 一杯明月 阅读(248) 评论(0) 推荐(0)
摘要: 为什么说Dropout可以解决过拟合? (1)取平均的作用: 先回到标准的模型即没有dropout,我们用相同的训练数据去训练5个不同的神经网络,一般会得到5个不同的结果,此时我们可以采用 “5个结果取均值”或者“多数取胜的投票策略”去决定最终结果。例如3个网络判断结果为数字9,那么很有可能真正的结 阅读全文
posted @ 2019-11-08 15:36 一杯明月 阅读(416) 评论(0) 推荐(0)