10.7.4 编码器

TransformerEncoder中,要将嵌入表示先乘以嵌入维度的平方根的原因我觉得是让位置编码和特征维度的数值大小匹配,因为嵌入矩阵通常通过均匀分布初始化,例如在 PyTorch 的 nn.Embedding 中,默认使用均匀分布\([-\sqrt{\frac{3}{d}},\sqrt{\frac{3}{d}}]\)进行初始化,而三角函数的范围是\([-1,1]\),所以要先乘以\(\sqrt{d}\)
kimi的解释如下
image

posted @ 2025-02-25 08:56  最爱丁珰  阅读(5)  评论(0)    收藏  举报