会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
岁
博客园
首页
新随笔
联系
订阅
管理
2025年1月30日
为什么Transformer模型使用Layer Normalization而不是Batch Normalization
摘要: 我觉得最重要的有两点: 处理变长序列的稳定性:BN是在不同样本的同一维度做归一化,因为在seq2seq的场景中,样本数量不是固定的/输入序列是变长的,使用BN会导致不稳定。LN是在同一样本的不同维度做归一化,这样会更稳定。 小批量下的鲁棒性:Batch Norm的性能受批量大小影响显著,小批量可能导
阅读全文
posted @ 2025-01-30 13:10 岁
阅读(340)
评论(0)
推荐(0)
公告