摘要: 参考:https://zhuanlan.zhihu.com/p/677203832 理论分析 最近做算法,遇到奇怪的事情,模型很小,占用显存很大,于是打算分析下。 显存主要有: 模型参数(parameters) 前向传播:执行模型的前向传播,产生中间激活值(intermediate activati 阅读全文
posted @ 2025-06-16 18:11 andytest 阅读(165) 评论(0) 推荐(0)