- Batch Normalization
- 在batch size维度上归一化
- 抹除了特征之间的大小关系、保留了样本之间的大小关系
- Layer Normalization
- 在hidden size维度上归一化
- 抹除了样本之间的大小关系,保留了样本之间的大小关系
- RMSNorm:(llama2)
- 就是不进行减去均值操作的Layer Normalization
- 实验证明更快并且效果类似
- 在NLP中,LN更好,因为
- BN无法处理padding问题
- BN抹杀了一个序列内部的大小关系,这正是NLP需要学习的
- Instance Normalization:
- 在单个instance内部,对所有特征做归一化
- Pre-LN和Post-LN
- 背景:Transformer需要学习率的warm up才可以比较好的初始化
- pre-LN:在计算之前归一化,顺序是LN-Function-残差连接,在多层Transformer上表现更好
- post-LN:在计算之后归一化,顺序是Function-残差连接-LN(Transformer原作),训练的好的前提下,模型效果更好一些
- DeepNorm:
- Post-LM的改进
- 在部分Xavier初始化时down-scale了参数范围
- 给残差连接加上了系数,即加上alpha倍的x,up-scale残差连接来减少爆炸式更新
- 结合了Post-LN的良好性能以及Pre-LN的训练稳定性
posted @
2025-05-18 00:51
Phile-matology
阅读(
12)
评论()
收藏
举报