1 Transformer 总体架构
1.1 Transformer 总体架构
Transformer 总体架构可以分为四个部分:
- 输入部分
- 输出部分
- 编码器部分
- 解码器部分
-
输入部分包含:
- 源文本嵌入层和位置编码层;
- 目标文本嵌入层和其位置编码层。
-
输出部分包含:
- 一个线性层(为了得到最终的 output_size);
- 一个softmax层 (提取到概率最大的值);
-
编码器部分包含:
- 由N个
编码器Layer层堆叠而成; - 每个 编码器Layer层 都由两个子层结构所组成;
- 第一个子层结构包含:
- 多头自注意力层;
- 归一化层;
- 残差连接层;
- 第二个子层结构包含:
- 前馈神经网络层;
- 归一化层;
- 残差连接层;
- 由N个
-
解码器部分包含:
- 由N个
解码器Layer层堆叠而成; - 每个 解码器Layer层 都由三个子层结构所组成;
- 第一个子层结构包含:
- 多头自注意力层;
- 归一化层;
- 残差连接层;
- 第二个子层结构包含:
- 多头注意力层;
- 归一化层;
- 残差连接层;
- 第三个子层结构包含:
- 前馈神经网络层;
- 归一化层;
- 残差连接层;
- 由N个

浙公网安备 33010602011771号