摘要: 总览 HuggingFace 的这篇文章总结了一系列节约显存的方法,非常全面。 训练时显存占用的组成: 模型参数 优化器状态 输入张量和其他临时张量 激活值 梯度 通信缓冲 “激活值” 可能有点难理解。这是指像是 dropout 的 mask、LayerNorm 的 \(\mu\ \sigma^2\ 阅读全文
posted @ 2024-04-21 00:05 倒地 阅读(521) 评论(0) 推荐(0)
摘要: 微调 Fine-Tuning 比起从零开始训练,使用预训练模型进行微调是更经济的做法。 全量微调(Full fine-tuning)是指模型所有参数参与到微调。这种简单粗暴的方法并不高效,但也许能获得其他微调方法达不到的效果。 参数高效微调 PEFT PEFT(Parameter Efficient 阅读全文
posted @ 2024-04-21 00:05 倒地 阅读(866) 评论(0) 推荐(0)