机器学习课程笔记 4

上一篇 -> 机器学习课程笔记 3。

简单理解
从输入中抓取有用的信息，将其组合成解码器可以处理的信息。
Encoder 由小 Encoder 叠加(transformer 有 N 个), 逐步加强对信息的抓取和组合。
Self-Attention
Feed Forward
每个子层都还有一个残差网络 + 归一化
以\(z_1\)为例
- 此时其为\(x_1\)变为词向量获得语义信息、通过位置编码获得位置信息、通过自注意力机制获得句法信息得到新形态 \(z_1\)。
- 先利用残差网络（出处 ResNet）加和(Add), 可以避免梯度消失, \(z_1 = x_1 + z_1\)。梯度消失介绍
- 其次利用 Layer Normalization(LN), 对每个输入特征做归一化处理, \(z_1 = LN(z_1)\)。归一化层
- Feed Forward利用 \(ReLU\) 激活函数做一次非线性变换（前面都是线性变换）得到 \(r_1\)。
总体来说就是让数据的表征更加优秀。

简单理解
从编码器信息中抓取有用的信息，结合输入的目标生成可用结果。
Decoder 由小 Decoder 叠加(transformer 有 N 个)，逐步加强对信息的抓取和生成。
Self-Attention
此处的加入了 Mask，为什么？原因？
- 简单比喻，“你知道卷子所有的题目”和“你考试时一道道知晓”，哪个更符合测验的本质？
- 肯定是第二种，所以训练时按照测试时的思路去让机器学习，Mask 遮挡后续数据，“一道道”处理。
Feed Forward
Encoder-Decoder Attention
这里Attention名称变了，说明 Q、K、V 的来源变了。
- 即 K、V 来自于 Encoder，Q 来自于 Decoder 。
- 回顾注意力机制的本质，提取重要信息，所以这里 Q 是解码的目标表征，而 K、V 是要解码的数据表征, 利用目标 Q 结合数据 K 得出重要信息权重，后结合数据 V 进一步把真正解码的信息求出。
每个子层都还有一个残差网络 + 归一化。
最后全连接和softmax层的作用
根据softmax最大概率，确定此位置的单词。