实用指南：【大语言模型】—— Transformer的QKV及多头注意力机制图解解析

【大语言模型】—— Transformer的QKV及多头注意力机制图解解析

来源： Transformer 动画 + 论文 + 白板

翻译任务

当我们用神经网络做翻译任务时，如下
在这里插入图片描述
先用词嵌入的方式把每个词转为对应的词向量，假设维度为6

如果把每个词直接丢到一个全连接神经网络中，那每个词都没有上下文的信息，且长度只能一一对应

在这里插入图片描述
如果用循环神经网络RNN，又面临串行计算，而且如果句子太长，也会导致长期依赖困难的难题

在这里插入图片描述

位置编码

上述两种方法面临上下文以及词语间相互依赖的障碍，因此最初需要引入文本的位置编码

首先我们给每个词一个位置编码，表示这个词出现在整个句子中的位置，把位置编码加入到原来的词向量中，这个词就有了位置信息

在这里插入图片描述

注意力机制

但此时每个词还没有其他词的上下文信息，也就是注意不到其他词的存在。

我们用一个 $W_q$ 矩阵，和第一个词向量相乘，得到一个维度不变的 $Q_1$ 向量

在这里插入图片描述
这里的 $W_q$ 矩阵，是可以通过训练过程学习的一组权重值，同理，我们用一个 $W_k$ 矩阵和第一个词向量相乘，得到 $K_1$

在这里插入图片描述
再通过 $W_v$ 矩阵得到 $V_1$

在这里插入图片描述

接着其他的词向量也和相同的 $W_{Q,K,V}$ 矩阵相乘，分别得到自己对应的 $Q, K, V$ 向量

在这里插入图片描述
包含所有词向量的就是在实际的计算机运算中，是借助拼接得到的大矩阵做乘法，得到的就 $Q, K, V$ 矩阵，在 Transformer 的注意力机制里，每个输入向量（比如一句话中的一个词的向量表示）得根据上下文来重新获得“加权表示”。这种加权就是通过 $Q, K, V$ 来完成的。