Batch Normalization

 

 BN层和卷积层 池化层一样,都是一个神经网络层,BN层在使用激活函数之前。

BN层的操作步骤参考博客:https://blog.csdn.net/gongliming_/article/details/90214338?utm_medium=distribute.pc_relevant.none-task-blog-2~default~baidujs_baidulandingword~default-0.no_search_link&spm=1001.2101.3001.4242.1

 

BN层在对数据进行归一化处理时不会把数据处理为均值为0,方差为1的数据集,在BN层的第四步γ和β为输出的线性调整参数,可以让分布曲线压缩或延长一点,左移或右移一点。由于γ和β是可训练的,那么意味着神经网络会随着训练过程自己挑选一个最适合的分布。

 Layer Normalization

为什么Bert模型中self-attention的输出进行归一化的时候用的是Layer Normalization层,而不用Batch Normalization?

 

posted on 2021-11-13 16:53  啥123  阅读(12)  评论(0编辑  收藏  举报