【自然语言处理|注意力机制-02】Seq2Seq架构中的注意力机制-CSDN博客
一文搞懂 Transformer(总体架构 & 三种注意力层)
“AI”科普丨Transformer架构图解最强教程!