2024 年 6月 22 日随笔档案 - Kevincoding

2024年6月22日

摘要： GPT：参数量：1.17亿个参数。模型架构：采用12层的Transformer编码器架构 GPT由pretraining和fine-tuning (SFT) 两部分组成 training objective：predict the next token 做pretraining的好处：语料学习阅读全文

posted @ 2024-06-22 15:20 Kevincoding 阅读(186) 评论(0) 推荐(0)

kevinblogs

公告