补全llm知识体系的地基:位置编码
背景:Transformer自身无法学到任何相对位置关系
Transformer原作:位置编码,按照在序列中的位置和在编码中的位置,计算一个当前位置的编码,直接加到embedding上
- 在高维空间中,两个向量大概率是正交的
- 相加比直接concate更省空间和时间
旋转位置编码:RoPE(LLaMa,GLM等采用)
- 简单理解:给输入向量乘以一个旋转矩阵,该旋转矩阵形如:这样保持输入向量模长基本不变,还具有良好的外推性

背景:Transformer自身无法学到任何相对位置关系
Transformer原作:位置编码,按照在序列中的位置和在编码中的位置,计算一个当前位置的编码,直接加到embedding上
旋转位置编码:RoPE(LLaMa,GLM等采用)
