会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
The Blog
Do not go gentle into that good night.
Old age should burn and rave at close of day.
Rage, rage against the dying light.
博客园
首页
新随笔
联系
订阅
管理
2025年8月4日
Post-norm和Pre-norm
摘要: Post-norm 在传统的transformer中,layer normalization一般发生在残差之后,即在add之后再进行norm,如果令F为MHAorFFN,那么post-norm则有:Xo = LN(Xi + F(Xi))。post-norm可以使得每个神经网络层的输出都在相似的尺度上
阅读全文
posted @ 2025-08-04 02:05 Luna-Evelyn
阅读(352)
评论(0)
推荐(0)
公告