2025.7.14学习日记
1.torchrun
torchrun是一个Python控制台脚本(CLI),指向主模块torch.distributed.run。效果等同于python -m torch.distributed.run。
1.1 简单使用
- 命令行使用
在命令行中输入如下指令即可启动单节点多进程训练,重要的是第三个参数--nproc-per-node=$NUM_TRAINERS表明在每台机子上启动NUM_TRAINERS个进程训练。这种形式其实特别适合编写.sh文件,进行重复的训练
torchrun
--standalone
--nnodes=1
--nproc-per-node=$NUM_TRAINERS
YOUR_TRAINING_SCRIPT.py (--arg1 ... train script args...)
【😭】:多节点多进程训练煮啵还没有实现,埋个伏笔先吧
- Notebook使用
Notebook使用直接将如下内容写入即可,不过煮啵这里只搞定了环境变量的问题,能否真正使用煮啵还需要进一步实验
import os
os.environ['MASTER_ADDR']='127.0.0.1'
os.environ['MASTER_PORT']='29500'
os.environ['WORLD_SIZE']='1'
os.environ['RANK']='0'
os.environ['LOCAL_RANK']='0'
os.environ['LOCAL_WORLD_SIZE']='1'

浙公网安备 33010602011771号