摘要: 详解PyTorch FSDP数据并行(Fully Sharded Data Parallel)-CSDN博客 阅读全文
posted @ 2024-12-08 11:51 Picassooo 阅读(152) 评论(0) 推荐(0)
摘要: 主节点(master_ip + master_port)责协调所有其他节点和进程的工作,由主节点所在服务器的IP地址和主节点进程的端口号来确定主节点。主节点还负责监控系统状态、处理任务分配、结果汇总等任务,因此是整个系统的关键部分。 节点编号(node_rank)是系统中每个节点的唯一标识符,用于区 阅读全文
posted @ 2024-12-08 11:45 Picassooo 阅读(76) 评论(0) 推荐(0)
摘要: gradient_accumulation_steps --梯度累加理解_gradient accumulation step-CSDN博客 阅读全文
posted @ 2024-12-08 11:23 Picassooo 阅读(182) 评论(0) 推荐(0)