2025 年 8月 15 日随笔档案 - wangssd

2025年8月15日

摘要：生成式大语言模型（如GPT系列）的预训练过程主要通过无监督学习从海量文本中捕捉语言规律。 1. 数据集制作数据来源：多样化文本：网页（Common Crawl）、书籍（如BookCorpus）、维基百科、代码库等。数据规模：通常达TB级别，涵盖数十种语言（单语或多语模型）。预处理：清洗：过阅读全文

posted @ 2025-08-15 09:08 wangssd 阅读(57) 评论(0) 推荐(0)

wangssd

公告