摘要: Llama3学习记录 Llama3是一个稠密的transformer网络模型,应用于预测文本序列的下一个token。相较于先前版本的Llama模型,其性能提升主要来自于数据质量的提升以及多样性,并且也受益于模型参数的增加 1. 网络架构 由上图可知,Llama3是一个decoder only的网络模 阅读全文
posted @ 2024-09-19 21:55 AiHorizon 阅读(295) 评论(0) 推荐(0)