BERT & GPT

BERT是大规模多任务预训练的语言模型。
它源于Transformer，即然Encoder能够将语言信息抽离出来，那么直接将这部分独立，也许能很好的对语言做出表示，

基于预训练的BERT，接针对特定任务的解码器，进行微调，可以实现很好的效果。

GPT也是大规模预训练的模型。
它源于Transformer的Decoder，它新版本的GPT可以直接使用，不再需要调试，也就是所谓的zero-shot learning。
另外，因为Decoder的每一步都基于上一步的结果，这赋予GPT非常强大的生成能力。