4.transformer

建议直接看参考的知乎链接,我这是一坨

1. encorder

\[\mathrm{LayerNorm}\big(X+\mathrm{MultiHeadAttention}(X)\big) \]

\[\mathrm{LayerNorm}\big(X+\mathrm{Feed}\mathrm{Forward}(X)\big) \]

\[\mathrm{FeedForward}(X)=\max(0,XW_1+b_1)W_2+b_2 \]

做layernorm而不是batchnorm,李沐视频有讲

2. decorder

masked attention,每次输出都会考虑之前所有的输出,故后面的需要“遮住”

2.1 cross attention

所以encorder有两个箭头指进来,下面masked的只有一个

参考:

  1. 强烈推荐!台大李宏毅自注意力机制和Transformer详解!

  2. Transformer模型详解(图解最完整版)

posted @ 2024-03-22 21:46  乐池  阅读(17)  评论(0)    收藏  举报