transformer

transformer是一种seq2seq的模型。
QA的问题都可以用seq2seq的模型来解决。QA问题举例:给模型一篇文章,问机器这篇文章是正面的还是负面的?

模型结构

Encoder + decoder

Encoder

给一排向量输出一排向量。

每个block也是输入一排向量输出一排向量输入

Decoder

语音识别中的Decoder:Autoregressive


训练的时候Decoder的输入是groundtruth。
测试时Decoder输入的是自己的答案,因为在训练时它只看过正确的东西,所以在测试时一旦有一个结果错误,就会导致一步错步步错。

一个可以的解决方案是训练时给Decoder一些错误的东西。(Scheduled Sampling)

posted @ 2021-05-15 21:30  小鸟飞飞11  阅读(108)  评论(0)    收藏  举报