摘要:
一、模型计算量 C ≈ 6N*D 其中C表示训练语言模型所需的总计算量,N表示模型参数量,D表示用于训练的语料总量,6表示每训练一个token所需的浮点计算量约为6N,其中前向计算2N,反向计算4N。 注意:这里的6是针对Transformers,如果其它模型结构,还请重新确定每个参数的平均计算量。 阅读全文
posted @ 2024-07-22 05:58
爱串门的小马驹
阅读(296)
评论(0)
推荐(0)
浙公网安备 33010602011771号