Batch Normalization

BN层和卷积层池化层一样，都是一个神经网络层，BN层在使用激活函数之前。

BN层的操作步骤参考博客：https://blog.csdn.net/gongliming_/article/details/90214338?utm_medium=distribute.pc_relevant.none-task-blog-2~default~baidujs_baidulandingword~default-0.no_search_link&spm=1001.2101.3001.4242.1

BN层在对数据进行归一化处理时不会把数据处理为均值为0，方差为1的数据集，在BN层的第四步γ和β为输出的线性调整参数，可以让分布曲线压缩或延长一点，左移或右移一点。由于γ和β是可训练的，那么意味着神经网络会随着训练过程自己挑选一个最适合的分布。

Layer Normalization

为什么Bert模型中self-attention的输出进行归一化的时候用的是Layer Normalization层，而不用Batch Normalization？

posted on 2021-11-13 16:53 啥123 阅读(26) 评论(0) 收藏举报