07 2024 档案

摘要:一、模型计算量 C ≈ 6N*D 其中C表示训练语言模型所需的总计算量,N表示模型参数量,D表示用于训练的语料总量,6表示每训练一个token所需的浮点计算量约为6N,其中前向计算2N,反向计算4N。 注意:这里的6是针对Transformers,如果其它模型结构,还请重新确定每个参数的平均计算量。 阅读全文
posted @ 2024-07-22 05:58 爱串门的小马驹 阅读(296) 评论(0) 推荐(0)