摘要: 生成式大语言模型(如GPT系列)的预训练过程主要通过无监督学习从海量文本中捕捉语言规律。 1. 数据集制作 数据来源: 多样化文本:网页(Common Crawl)、书籍(如BookCorpus)、维基百科、代码库等。 数据规模:通常达TB级别,涵盖数十种语言(单语或多语模型)。 预处理: 清洗:过 阅读全文
posted @ 2025-08-15 09:08 wangssd 阅读(57) 评论(0) 推荐(0)