位置编码（Poitional Encoding）

2024.3.13 位置编码（Poitional Encoding）

优点：

缺点：

通过$t_1$告诉你，$x_1$是在前面，$x_2$在$x_1$的后面

为了解决 Attention 丢失的序列顺序信息，Transformer 的提出者提出了 Position Embedding，也就是对于输入 X进行 Attention 计算之前，在 X的词向量中加上位置信息，也就是说 X的词向量为

$X_{final\quad embedding}=Embedding+Positional\quad Embedding$

其中位置编码公式如下图所示：

其中 pos 表示位置、i 表示维度、$d_{model}$表示位置向量的向量维度、2i、2i+1表示的是奇偶数（奇偶维度），上图所示就是偶数位置使用 sin函数，奇数位置使用 cos 函数。

过把单词的词向量和位置向量进行叠加，这种方式就称作位置嵌入，如下图所示：

$PE(pos+k,2i)=sin(pos+k) \quad $$PE(pos+k,2i+1)=cos(pos+k)$

$sin$ ---->2$i$，$cos$ ------>2$i+1$

公式里面蕴含相对位置信息

pos+k是pos和k的线性组合

pos+k=5，我在计算第五个单词的位置编码的时候

pos=1,k=4

pos=2,k=3

posted @ 2024-03-13 21:31 adam12138 阅读(493) 评论(0) 收藏举报

刷新页面返回顶部