补全llm知识体系的地基：位置编码

背景：Transformer自身无法学到任何相对位置关系

Transformer原作：位置编码，按照在序列中的位置和在编码中的位置，计算一个当前位置的编码，直接加到embedding上

在高维空间中，两个向量大概率是正交的
相加比直接concate更省空间和时间

旋转位置编码：RoPE（LLaMa，GLM等采用）

简单理解：给输入向量乘以一个旋转矩阵，该旋转矩阵形如：这样保持输入向量模长基本不变，还具有良好的外推性

posted @ 2025-05-16 18:20 Phile-matology 阅读(35) 评论(0) 收藏举报

刷新页面返回顶部