2025 年 11月 9 日随笔档案 - leleleocc

2025年11月9日

摘要：假设有N块GPU,模型有ψ个参数。前提知识：每个参数对应一个梯度值，且SGD每个参数对应一个一阶动量，Adam每个参数对应一个一阶、一个二阶动量 DP（data parallel）数据并行（单进程，多线程，只用一个cpu核），每个GPU上都保存完整的模型参数（param,or p）与优化器状阅读全文

posted @ 2025-11-09 18:38 leleleocc 阅读(16) 评论(0) 推荐(0)

rifo

公告