为什么Transformer块使⽤LayerNorm⽽不是BatchNorm?

个人学习使用,侵权删

参考来源:
为什么Transformer要用LayerNorm
为什么Transformer模型使用layernorm而不是batchnorm
transformer 为什么使用 layer normalization,而不是其他的归一化方法?

posted on 2024-03-03 20:20  zhou-snaker  阅读(26)  评论(0编辑  收藏  举报