1 2 3 4 5 ··· 12 下一页
摘要: 参考文章: https://medium.com/pareture/kubectl-install-crd-failed-annotations-too-long-2ebc91b40c7d 原因: 使用kubectl apply创建或更新资源时,系统都会自动添加一个名为kubectl.kuberne 阅读全文
posted @ 2025-07-17 11:42 xiezhengcai 阅读(22) 评论(0) 推荐(0)
摘要: Ctrl + Shift + P Preferences: Open Settings (JSON) 输入: { "go.goroot": "/usr/local/go", "go.gopath": "/usr/local/go/gopath", "go.toolsEnvVars": { "GO11 阅读全文
posted @ 2025-07-16 20:26 xiezhengcai 阅读(3) 评论(0) 推荐(0)
摘要: 创建新 screen 会话 screen -S deepspeed_train 使用日志重定向 screen -L -Logfile train.log -S deepspeed_train 在 screen 中启动训练 deepspeed --num_gpus=4 train_script.py 阅读全文
posted @ 2025-06-08 03:58 xiezhengcai 阅读(8) 评论(0) 推荐(0)
摘要: 数据并行 首先要有一个分布式的环境, 比如ray 有一个集合通讯的后端 比如nccl 将模型初始化为DDP数据并行模型,并指定全局rank 数据使分布式采样 进行模型训练 假如ray集群有两个节点,主节点ip=10.230.40.150 , ray集群集群启动时,每个节点分配一张显卡, import 阅读全文
posted @ 2025-05-23 20:33 xiezhengcai 阅读(83) 评论(0) 推荐(0)
摘要: 集群启动: 所有节点确保安装 pip install pydantic aiohttp_cors opencensus opencensus-ext-prometheus aiohttp grpcio protobuf 否则 dashboard 进程无法正常监听 通过pip list | grep 阅读全文
posted @ 2025-05-23 18:52 xiezhengcai 阅读(142) 评论(0) 推荐(0)
摘要: 工作节点、reylay 每一个工作节点有一名reylet组件,负责管理工作进程,在工作节点上的任务共享reylet,负责任务调度和对象存储(如rey.put), 对象存储在节点内形成共享内存池,并确保worker进程可以访问其它节点的对象,对象存储由Plasma实现, 调度器负责资源管理工作,管理c 阅读全文
posted @ 2025-05-23 13:14 xiezhengcai 阅读(71) 评论(0) 推荐(0)
摘要: import os os.environ["RAY_DEDUP_LOGS"] = "0" import time import ray database = ["Learning", "ray", "a", "b","c"] db_obeject_ref = ray.put(database) @r 阅读全文
posted @ 2025-05-22 22:20 xiezhengcai 阅读(33) 评论(0) 推荐(0)
摘要: 假如有两个节点, 每个节点两个GPU 查看系统与机器架构: uname -m lsb_release -a 在每台机器上操作 安装nccl wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/ 阅读全文
posted @ 2025-05-09 02:41 xiezhengcai 阅读(246) 评论(0) 推荐(0)
摘要: struct cudaMemsetParams { void *dst; // 目标内存地址(设备端指针) size_t pitch; // 每行的跨度(字节),仅在 height > 1 时有用 unsigned int value; // 要设置的值(只使用低字节,不支持浮点) unsigned 阅读全文
posted @ 2025-04-29 15:51 xiezhengcai 阅读(11) 评论(0) 推荐(0)
摘要: 明白几个概念 cudaPitchedPtr(void *ptr, size_t pitch, size_t xsize, size_t ysize) cudaPitchedPtr 用于描述一块有行跨度的内存空间。 pitch pitch 在内存管理中,它指物理内存中实际分配的行跨度,表示从一行数据跳 阅读全文
posted @ 2025-04-29 15:02 xiezhengcai 阅读(31) 评论(0) 推荐(0)
1 2 3 4 5 ··· 12 下一页