2025.7.14学习日记

1.torchrun

torchrun是一个Python控制台脚本(CLI),指向主模块torch.distributed.run。效果等同于python -m torch.distributed.run

1.1 简单使用

  • 命令行使用
    在命令行中输入如下指令即可启动单节点多进程训练,重要的是第三个参数--nproc-per-node=$NUM_TRAINERS表明在每台机子上启动NUM_TRAINERS个进程训练。这种形式其实特别适合编写.sh文件,进行重复的训练
torchrun
    --standalone
    --nnodes=1
    --nproc-per-node=$NUM_TRAINERS
    YOUR_TRAINING_SCRIPT.py (--arg1 ... train script args...)

【😭】:多节点多进程训练煮啵还没有实现,埋个伏笔先吧

  • Notebook使用
    Notebook使用直接将如下内容写入即可,不过煮啵这里只搞定了环境变量的问题,能否真正使用煮啵还需要进一步实验
import os
os.environ['MASTER_ADDR']='127.0.0.1'
os.environ['MASTER_PORT']='29500'
os.environ['WORLD_SIZE']='1'
os.environ['RANK']='0'
os.environ['LOCAL_RANK']='0'
os.environ['LOCAL_WORLD_SIZE']='1'  

1.2

posted @ 2025-07-15 09:43  BingUw  阅读(49)  评论(0)    收藏  举报