补全llm知识体系的地基:Normalization

  1. Batch Normalization
    1. 在batch size维度上归一化
    2. 抹除了特征之间的大小关系、保留了样本之间的大小关系
  2. Layer Normalization
    1. 在hidden size维度上归一化
    2. 抹除了样本之间的大小关系,保留了样本之间的大小关系
  3. RMSNorm:(llama2)
    1. 就是不进行减去均值操作的Layer Normalization
    2. 实验证明更快并且效果类似
  4. 在NLP中,LN更好,因为
    1. BN无法处理padding问题
    2. BN抹杀了一个序列内部的大小关系,这正是NLP需要学习的
  5. Instance Normalization:
    1. 在单个instance内部,对所有特征做归一化
  6. Pre-LN和Post-LN
    1. 背景:Transformer需要学习率的warm up才可以比较好的初始化
    2. pre-LN:在计算之前归一化,顺序是LN-Function-残差连接,在多层Transformer上表现更好
    3. post-LN:在计算之后归一化,顺序是Function-残差连接-LN(Transformer原作),训练的好的前提下,模型效果更好一些
  7. DeepNorm:
    1. Post-LM的改进
    2. 在部分Xavier初始化时down-scale了参数范围
    3. 给残差连接加上了系数,即加上alpha倍的x,up-scale残差连接来减少爆炸式更新
    4. 结合了Post-LN的良好性能以及Pre-LN的训练稳定性 
posted @ 2025-05-18 00:51  Phile-matology  阅读(12)  评论(0)    收藏  举报