摘要: GPT: 参数量:1.17亿个参数。 模型架构:采用12层的Transformer编码器架构 GPT由pretraining和fine-tuning (SFT) 两部分组成 training objective:predict the next token 做pretraining的好处: 语料学习 阅读全文
posted @ 2024-06-22 15:20 Kevincoding 阅读(186) 评论(0) 推荐(0)