补全llm知识体系的地基:初始化

初始化的出发点:希望初始化的参数在一个性能比较好的区间上

    1. 如果参数较为极端,例如出现了输入与输出的分布相差很远,那么在深层的神经网络中,就可能带来梯度爆炸(分布在目标函数陡峭的区间)/梯度消失(例如数值过大进入了softmax的平缓区间)
    2. 理想状态是,Normalization方法将输入控制在一个N(0, 1),而每一层的初始化参数能使得输出向量的二阶矩/原点矩/模长尽可能保持在类似范围内,防止极端梯度

从分布中采样:

    1. 均匀分布:结果单一但有界
    2. 正态分布:可能出现极端值
    3. 截尾正态分布:只有一定范围内的正态
    Xavier初始化:(从全连接的推导)

      He初始化:针对ReLU(对于不同的激活函数,初始化的采样来源分布要做相应调整),从N(0, 2/n)中采样全连接权重W

 

 

 NTK:neural tangent kernel

  • 对比Xavier从N(0, 1/n)中采样全连接权重W,来使得W为正交矩阵的同时保持模长不变
  • NTK从N(0, 1)中直接采样,再把权重W和输入x的内积除以√n,也能保持模长不变
posted @ 2025-05-18 15:31  Phile-matology  阅读(24)  评论(0)    收藏  举报