摘要: 补充背景: 关于Transformer和Llama架构的演进 一、背景 LLaMA 2 和 LLaMA2-Chat 参数规模:70亿、130亿和700亿 数据和训练规模: 上下文长度 训练资源 性能表现: 二、预训练 pretraining 1. 预训练数据 · 训练语料来自公开课用的数据源,不包括 阅读全文
posted @ 2024-12-18 11:24 AAA建材王师傅 阅读(245) 评论(0) 推荐(0)