摘要:
因为自己开始了transformer的学习,但transformer的学习还需要一点卷积里的基础知识。 这里主要还是说学习一个ResNet。 在这张图里,五角星代表了最优位置。对于非嵌套的函数,虽然函数变大变复杂了,但其实还是在远离最优点。但是对于嵌套的函数,就可以做到越来越解决最优点,至少不会出现 阅读全文
posted @ 2021-11-18 20:09
kalice
阅读(100)
评论(0)
推荐(0)
摘要:
批量归一化实际上也是一个层,可以直接调用torch的api。 我们在训练顶部的层,实际上干的就是在拟合底部层。所以顶部的层会收敛的很快,但是底部的层数据变化后,顶部又要重新进行训练。 一个简单的实现就是将分布的均值和方差进行固定。这个实现也很简单。 \[ \mu_{B}=\frac{1}{|B|} 阅读全文
posted @ 2021-11-18 19:37
kalice
阅读(646)
评论(0)
推荐(0)
摘要:
训练集、测试集、验证集的划分 fixed or random fixed split:对dataset只划分一次 random split: 对dataset进行random split,但是对不同的random seed得到的performance做一个求平均。 graph is special 阅读全文
posted @ 2021-11-18 18:22
kalice
阅读(615)
评论(0)
推荐(0)

浙公网安备 33010602011771号