摘要:
SGD + momentum SGD是利用一个mini-batch的数据来近似估计梯度,有陷入局部最优或者马鞍点的问题 momentum是说当前梯度也受之前的梯度的影响,用加权的方式。可以按照光流的思想去类比理解。 阅读全文
posted @ 2020-12-29 20:25
WeiAR
阅读(187)
评论(0)
推荐(0)
摘要:
Xavier 初始化 在随机初始化的基础上*(1/sqrt(Din)) 在标准正态分布上乘一个常数c,会变成均值为0,标准差为c的分布 //https://blog.csdn.net/shuzfan/article/details/51338178 输出 y = wx ,这个方差咋算? var(y) 阅读全文
posted @ 2020-12-29 19:00
WeiAR
阅读(187)
评论(0)
推荐(0)
摘要:
在反向传播的时候能够加快收敛,避免all positicv or negetive && Z字型逼近最优解 阅读全文
posted @ 2020-12-29 11:30
WeiAR
阅读(266)
评论(0)
推荐(0)