2023 年 3月 12 日随笔档案 - 欧阳维斯诺夫斯基

2023年3月12日

摘要：资料来源：李沐谈gpt1-3 GPT1: 用transformer的decoder作为base模型在unlabel的模型上做pretraining，然后放到下游任务做finetuning。从时间上来讲是第一个大预训练NLP模型，比bert要早几个月。为了做通用预训练模型，有两个事情要做： 1. 采用阅读全文

posted @ 2023-03-12 17:14 欧阳维斯诺夫斯基阅读(596) 评论(0) 推荐(0)

kunrenzhilu

公告