摘要: Post-norm 在传统的transformer中,layer normalization一般发生在残差之后,即在add之后再进行norm,如果令F为MHAorFFN,那么post-norm则有:Xo = LN(Xi + F(Xi))。post-norm可以使得每个神经网络层的输出都在相似的尺度上 阅读全文
posted @ 2025-08-04 02:05 Luna-Evelyn 阅读(352) 评论(0) 推荐(0)