会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
acmdxmj
博客园
首页
新随笔
联系
订阅
管理
07 2024 档案
模型训练时间预测,计算量估计 Scaling Laws for Neural Language Models
摘要:一、模型计算量 C ≈ 6N*D 其中C表示训练语言模型所需的总计算量,N表示模型参数量,D表示用于训练的语料总量,6表示每训练一个token所需的浮点计算量约为6N,其中前向计算2N,反向计算4N。 注意:这里的6是针对Transformers,如果其它模型结构,还请重新确定每个参数的平均计算量。
阅读全文
posted @
2024-07-22 05:58
爱串门的小马驹
阅读(296)
评论(0)
推荐(0)
公告