1.模型开始:没有知识,不懂语言
预测下一个token;抓取大量数据(从网上抓取的,没有被整理的,无标签数据);自监督学习(通过预测下一个token)来自我监督
2.训练之后:学会了语言和知识,能够预测下一个token(通用模型)