摘要:
数据并行 首先要有一个分布式的环境, 比如ray 有一个集合通讯的后端 比如nccl 将模型初始化为DDP数据并行模型,并指定全局rank 数据使分布式采样 进行模型训练 假如ray集群有两个节点,主节点ip=10.230.40.150 , ray集群集群启动时,每个节点分配一张显卡, import 阅读全文
posted @ 2025-05-23 20:33
xiezhengcai
阅读(142)
评论(0)
推荐(0)
摘要:
集群启动: 所有节点确保安装 pip install pydantic aiohttp_cors opencensus opencensus-ext-prometheus aiohttp grpcio protobuf 否则 dashboard 进程无法正常监听 通过pip list | grep 阅读全文
posted @ 2025-05-23 18:52
xiezhengcai
阅读(198)
评论(0)
推荐(0)
摘要:
工作节点、reylay 每一个工作节点有一名reylet组件,负责管理工作进程,在工作节点上的任务共享reylet,负责任务调度和对象存储(如rey.put), 对象存储在节点内形成共享内存池,并确保worker进程可以访问其它节点的对象,对象存储由Plasma实现, 调度器负责资源管理工作,管理c 阅读全文
posted @ 2025-05-23 13:14
xiezhengcai
阅读(124)
评论(0)
推荐(0)

浙公网安备 33010602011771号