【深度学习】沐神论文领读:Alexnet

倒数第二层:

现在的倒数第二层是4096个神经元,算是一个很优秀的特征提取。

 

dropout:

现在CNN通常不会用到那么大的全连接

dropout也就不那么重要,gpu/内存不那么吃紧

但dropout在全连接/RNN/Attention很有用,

 

初始化:

均值0,方差0.01的高斯随机变量。Bert 0.02,

 

LR:

valid不动了,从0.01 - 0.001

Resnet,前120轮,之后每30轮下降十倍

现在主流:线性上去,cos下降下来

 

posted on 2022-01-08 21:31  yesuuu  阅读(31)  评论(0编辑  收藏  举报

导航