补全llm知识体系的地基:位置编码

背景:Transformer自身无法学到任何相对位置关系

Transformer原作:位置编码,按照在序列中的位置和在编码中的位置,计算一个当前位置的编码,直接加到embedding上

  • 在高维空间中,两个向量大概率是正交的
  • 相加比直接concate更省空间和时间

旋转位置编码:RoPE(LLaMa,GLM等采用)

  • 简单理解:给输入向量乘以一个旋转矩阵,该旋转矩阵形如:这样保持输入向量模长基本不变,还具有良好的外推性

 

posted @ 2025-05-16 18:20  Phile-matology  阅读(22)  评论(0)    收藏  举报