transformer
transformer是一种seq2seq的模型。
QA的问题都可以用seq2seq的模型来解决。QA问题举例:给模型一篇文章,问机器这篇文章是正面的还是负面的?
模型结构
Encoder + decoder
Encoder
给一排向量输出一排向量。
每个block也是输入一排向量输出一排向量输入
Decoder
语音识别中的Decoder:Autoregressive
训练的时候Decoder的输入是groundtruth。
测试时Decoder输入的是自己的答案,因为在训练时它只看过正确的东西,所以在测试时一旦有一个结果错误,就会导致一步错步步错。
一个可以的解决方案是训练时给Decoder一些错误的东西。(Scheduled Sampling)