1 Transformer 总体架构

image.png

1.1 Transformer 总体架构

Transformer 总体架构可以分为四个部分:

  • 输入部分
  • 输出部分
  • 编码器部分
  • 解码器部分

  • 输入部分包含:

    • 源文本嵌入层和位置编码层;
    • 目标文本嵌入层和其位置编码层。
  • 输出部分包含:

    • 一个线性层(为了得到最终的 output_size);
    • 一个softmax层 (提取到概率最大的值);
  • 编码器部分包含:

    • 由N个 编码器Layer层 堆叠而成;
    • 每个 编码器Layer层 都由两个子层结构所组成;
    • 第一个子层结构包含:
      • 多头自注意力层;
      • 归一化层;
      • 残差连接层;
    • 第二个子层结构包含:
      • 前馈神经网络层;
      • 归一化层;
      • 残差连接层;
  • 解码器部分包含:

    • 由N个 解码器Layer层 堆叠而成;
    • 每个 解码器Layer层 都由三个子层结构所组成;
    • 第一个子层结构包含:
      • 多头自注意力层;
      • 归一化层;
      • 残差连接层;
    • 第二个子层结构包含:
      • 多头注意力层;
      • 归一化层;
      • 残差连接层;
    • 第三个子层结构包含:
      • 前馈神经网络层;
      • 归一化层;
      • 残差连接层;

posted @ 2024-05-08 15:43  wuhaoliu  阅读(22)  评论(0)    收藏  举报  来源