14.8.2 从特定于任务到不可知任务
注意,GPT只基于Transformer的解码器,没有基于编码器。GPT的主要任务是根据已经给了的句子预测下一个词(这本来就是语言模型干的事,不是说语言模型非要进行机器翻译的)。回忆一下,我们在训练Transformer的时候,解码器的部分也是有mask的(尽管我们输入的是一个完整的句子),所以解码器只会根据之前的词表示当前词。假设现在我们输入了"I went to the bank to sit down",然后让GPT预测后面的词,这个样子就可能会出错
如果GPT的任务是预测后面的词,那么GPT是如何应用到多种任务当中的?实际上,GPT的任务是预测后面的词的意思是,GPT是一个语言模型。语言模型就是拿来预测后面的词的对吧。同时还记得李沐说的,一般都是利用语言模型的任务进行预训练的。所以说,GPT的任务是预测后面的词这句话只是去说明GPT的预训练方式。那么假设我现在要微调,应用到其他任务上面去,比如说,一个问答问题,那么我的输入就是下面这种:“Q:... A:”,然后GPT就可以用去预测A后面的内容了

浙公网安备 33010602011771号