12 Masked Self-Attention（掩码自注意力机制）

博客配套视频链接: https://space.bilibili.com/383551518?spm_id_from=333.1007.0.0 b 站直接看

配套 github 链接：https://github.com/nickchen121/Pre-training-language-model

配套博客链接：https://www.cnblogs.com/nickchen121/p/15105048.html

上节课回顾

《Attention is all you need》

Attention

Self-Attention（Self--》自--》QKV 同源）

句法结构，语义结构

自注意力机制明确的知道这句话有多少个单词，并且一次性给足，而掩码是分批次给，最后一次才给足

Masked（掩码） Self-Attention--》在自注意力模型上面做了改进

为什么要做这个改进：生成模型，生成单词，一个一个生成的

当我们做生成任务的时候，我们也想对生成的这个单词做注意力计算，但是，生成的句子是一个一个单词生成的

I have a dream

I 第一次注意力计算，只有 I
I have 第二次，只有 I 和 have
I have a
I have a dream
I have a dream <eos>

掩码自注意力机制应运而生

掩码后 1

掩码后2

未来我们讲 Transformer 的时候会详细讲！

Multi-head Self-Attention。

posted @ 2022-07-12 16:53 B站-水论文的程序猿阅读(7826) 评论(0) 收藏举报

刷新页面返回顶部