摘要: 实际训练中Deepspeed参数配置ZeRO各stage含义是什么,offload以及gradient checkpoint是如何起作用的,本篇基于ZeRO不同stage含义,以及实践时参数含义来阐述Deepspeed原理。 这几天在做大模型的微调,发现几乎所有都用到了deepspeed,这里给大家 阅读全文
posted @ 2025-09-12 10:57 有何m不可 阅读(192) 评论(0) 推荐(0)