个人学习使用,侵权删
参考来源: 为什么Transformer要用LayerNorm 为什么Transformer模型使用layernorm而不是batchnorm transformer 为什么使用 layer normalization,而不是其他的归一化方法?