Positional Embedding

在原始的 Transformer 模型中,位置嵌入是由正弦和余弦函数组成的,这样设计的原因在于它具有周期性,可以帮助模型处理比训练时更长的序列,同时保持一定的泛化能力。

posted @ 2025-03-06 20:34  HaibaraYuki  阅读(23)  评论(0)    收藏  举报