191 Transform网络
Transform网络首先构建编码器如下

首先将输入进行多头注意力转换,然后放入前向传播网络。这个过程会重复\(N\)次(\(N\)的取值一般为\(6\))
在翻译的时候,我们首先将句子开始标识作为输入,输入进解码器,解码器首先会将输入进行多头注意力转换,然后会将编码器的输出一起,再进行多头注意力的转换,最后再将输出放进前向传播网络。这个过程也会重复多次,如下

然后生成了预测单词,在预测单词加入输入并重复上述步骤如下

再重复上述过程如下

一直直到完成翻译为止
Transforms需要添加位置编码,因为注意力机制同时处理所有单词,没办法像RNN一样知道各个单词的位置,而单词的位置又很重要,所以需要添加位置编码
位置编码的方式就是使用三角函数,这样子还有一个好处就是不同的单词的位置编码一定不同
我们也会在Transform中使用残差网络;同时会使用BatchNorm;最后还会加上Softmax层和一个线性层,如下

最后视频讲了个掩码Softmax,没太听懂

浙公网安备 33010602011771号