BERT & GPT

BERT是大规模多任务预训练的语言模型。
它源于Transformer,即然Encoder能够将语言信息抽离出来,那么直接将这部分独立,也许能很好的对语言做出表示,

基于预训练的BERT,接针对特定任务的解码器,进行微调,可以实现很好的效果。

GPT也是大规模预训练的模型。
它源于Transformer的Decoder,它新版本的GPT可以直接使用,不再需要调试,也就是所谓的zero-shot learning。
另外,因为Decoder的每一步都基于上一步的结果,这赋予GPT非常强大的生成能力。

posted @ 2022-11-15 12:56  沐沐mu  阅读(229)  评论(0编辑  收藏  举报