Lecture 4 -- Self-Attention

1. 一堆Vector作为Input

当模型以一堆的向量作为输入时，输出可以是与输入长度相同的一堆向量(focus of this lecture)，可以是与输入长度不相同的一堆向量(seq2seq)，也可以是一个向量!

2. 为什么要用Self-Attention？

以一个词性标注的任务为例，假如我们要对“I saw a saw”这个句子中的每一个单词做词性标记，很明显，第一个saw为动词，第二个saw为名词，如果我们将每一个词都传入一个全连接层得到输出结果，那么对于全连接层来说，两个saw没有本质上的区别，也就是说，此时全连接层无法捕捉上下文信息。那么我们如何有效的让模型能够理解两个saw的词性不同呢？常见的做法是在判断某个词的词性时，我们将它前面的N个词和后面的N个词一并传入到全连接层中，也就是我们以该词为中心，开一个“窗口”，将这个“窗口”中的所有词都传入全连接层就可以了。但是，如果我们今天一个完整的句子长度非常长，并且我们想要考虑整个句子的语义信息，那么我们就要把“窗口”开的非常大，这就会导致全连接层的参数量暴增，这显然不是一个很好的办法。Self-Attention就可以帮助我们以较少的参数量考虑整个句子的语义信息，进而做出有效的判断！

由下图可以看到，当我们把一堆向量传入Self-Attention时，它会输出相同数量的一堆向量！

那么，Self-Attention内部究竟是如何工作的呢？

3. Self-Attention是如何工作的？⭐

Self-Attention的关键是计算某一个词与周围所有词(包括自己)之间的相关性，这种计算相关性的方式主要有两种：Dot-product(主)和Additive，如下图。

具体而言，就是每一个词都会和W^q和W^k矩阵相乘产生q和k向量，如果要计算某一个词与周围所有词之间的关系时，我们只需要将该词产生的q向量与其他所有词(包括自己)产生的k向量做内积，并通过一个softmax层(这里用softmax并没有什么道理而言，当然也可以尝试用ReLU或者其他激活函数，或许会有更好的结果)即可，这里的相关性又称为Attention score！

如上图，我们得到了a¹与其他所有词(包括自己)的相关性(Attention score)，我们接下来如何产生最终的输出呢？

实际上，每一个输入的词还会与W^v矩阵相乘得到v向量，这些v向量与Attention score依次相乘再相加即可得到a¹的输出结果b¹

值得关注的是，这些输出向量并不是一个一个产生的，而是平行产生的，接下来我们来看看如何向量化表示这个过程。

4. Self-Attention的向量化表示⭐

如上图，首先得到Q,K,V三个矩阵，需要注意的是：W^qW^kW^v是Self-Attention中仅有的需要学习的参数！

如上图和下图，接着计算Attention score矩阵(K^TQ)，Attention score矩阵(A矩阵)是一个方阵，其每一列都要经过softmax层，第一列为第一个词与其他所有词之间的Attention score，第二列为第二个词与其他所有词之间的Attention score，以此类推...