摘要: 资料来源:李沐谈gpt1-3 GPT1: 用transformer的decoder作为base模型在unlabel的模型上做pretraining,然后放到下游任务做finetuning。从时间上来讲是第一个大预训练NLP模型,比bert要早几个月。为了做通用预训练模型,有两个事情要做: 1. 采用 阅读全文
posted @ 2023-03-12 17:14 欧阳维斯诺夫斯基 阅读(579) 评论(0) 推荐(0)