【758】Transformer结构图
Full Architecture

分解(Feed Forward即是Fully Connected)
Encoder部分
Decoder部分
Multi-Head Self-Attention

Encoder

Decoder

Encoder与Decoder的连接
- Encoder的输出要分别输入到没一层的Decoder里面
- 第一个Decoder需要Encoder的输入,但是之后的操作就用前一个输出作为输入了!详见下图动画




分解(Feed Forward即是Fully Connected)
Encoder部分

Decoder部分






