alex_bn_lee

导航

【753】Transformer模型

参考:李宏毅-Transformer【动画细致,有助于理解Self-Attention】

参考:The Illustrated Transformer【详细到一些参数,动画也很好】

参考:Transformer论文逐段精读【论文精读】


李宏毅老师深入浅出讲解transformer模型:https://www.bilibili.com/video/BV1Wq4y1v7DE?share_source=copy_web

论文:Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, Ł., & Polosukhin, I. (2017). Attention is all you need. Advances in Neural Information Processing Systems, 2017-December(Nips), 5999–6009.

 

背景与逻辑

用attention机制替代RNN(处理有序列的数据,seq2seq)

RNN的问题在于不能并行,但CNN只能观察到局部;而用attention机制相当于叠加多层的CNN,从而扩大感受野

但是必须要叠加多层才能看到更大的感受野。因此用self-attention layer来替代,可以看到所有的seq,而同时也可以并行。

 

Self-attention机制

  • 给每个input一个embedding X:单词emb和位置emb,得到的emb结果叫a

  • 对每个a,需要三个内容q/k/v,表示的是各个input 之间的关联性(attention系数);直观理解是不同的词之间的关系

    产生b1的时候 已经看到了全局所有的向量,天涯若比邻。如果只想看到局部的,也可以让中间某些系数为0即可

  • 可以用矩阵运算表示,因此可以并行

Transformer模型

seq2seq:encoder + decoder

 

 

posted on 2022-10-17 15:34  McDelfino  阅读(127)  评论(0)    收藏  举报