【深度学习】沐神论文领读：Alexnet

倒数第二层:

现在的倒数第二层是4096个神经元，算是一个很优秀的特征提取。

dropout:

现在CNN通常不会用到那么大的全连接

dropout也就不那么重要，gpu/内存不那么吃紧

但dropout在全连接/RNN/Attention很有用，

初始化:

均值0，方差0.01的高斯随机变量。Bert 0.02，

LR：

valid不动了，从0.01 - 0.001

Resnet，前120轮，之后每30轮下降十倍

现在主流：线性上去，cos下降下来

posted on 2022-01-08 21:31 yesuuu 阅读(39) 评论(0) 收藏举报

刷新页面返回顶部

yesuuu