会员
周边
众包
新闻
博问
闪存
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
無名
大猫咪与小狮子
管理
1
2
3
4
5
···
12
下一页
2025年7月17日
The CustomResourceDefinition "applications.apps.abc.com" is invalid: metadata.annotations: Too long: must have at most 262144 bytes
摘要: 参考文章: https://medium.com/pareture/kubectl-install-crd-failed-annotations-too-long-2ebc91b40c7d 原因: 使用kubectl apply创建或更新资源时,系统都会自动添加一个名为kubectl.kuberne
阅读全文
posted @ 2025-07-17 11:42 xiezhengcai
阅读(22)
评论(0)
推荐(0)
2025年7月16日
vscode ssh开发无法读取go env配置
摘要: Ctrl + Shift + P Preferences: Open Settings (JSON) 输入: { "go.goroot": "/usr/local/go", "go.gopath": "/usr/local/go/gopath", "go.toolsEnvVars": { "GO11
阅读全文
posted @ 2025-07-16 20:26 xiezhengcai
阅读(3)
评论(0)
推荐(0)
2025年6月8日
deepspeed
摘要: 创建新 screen 会话 screen -S deepspeed_train 使用日志重定向 screen -L -Logfile train.log -S deepspeed_train 在 screen 中启动训练 deepspeed --num_gpus=4 train_script.py
阅读全文
posted @ 2025-06-08 03:58 xiezhengcai
阅读(8)
评论(0)
推荐(0)
2025年5月23日
ray + nccl + 张量并行 训练
摘要: 数据并行 首先要有一个分布式的环境, 比如ray 有一个集合通讯的后端 比如nccl 将模型初始化为DDP数据并行模型,并指定全局rank 数据使分布式采样 进行模型训练 假如ray集群有两个节点,主节点ip=10.230.40.150 , ray集群集群启动时,每个节点分配一张显卡, import
阅读全文
posted @ 2025-05-23 20:33 xiezhengcai
阅读(83)
评论(0)
推荐(0)
ray集群
摘要: 集群启动: 所有节点确保安装 pip install pydantic aiohttp_cors opencensus opencensus-ext-prometheus aiohttp grpcio protobuf 否则 dashboard 进程无法正常监听 通过pip list | grep
阅读全文
posted @ 2025-05-23 18:52 xiezhengcai
阅读(142)
评论(0)
推荐(0)
ray 分布式, 工作节点、reylet、 主节点、GCS
摘要: 工作节点、reylay 每一个工作节点有一名reylet组件,负责管理工作进程,在工作节点上的任务共享reylet,负责任务调度和对象存储(如rey.put), 对象存储在节点内形成共享内存池,并确保worker进程可以访问其它节点的对象,对象存储由Plasma实现, 调度器负责资源管理工作,管理c
阅读全文
posted @ 2025-05-23 13:14 xiezhengcai
阅读(71)
评论(0)
推荐(0)
2025年5月22日
ray分布式
摘要: import os os.environ["RAY_DEDUP_LOGS"] = "0" import time import ray database = ["Learning", "ray", "a", "b","c"] db_obeject_ref = ray.put(database) @r
阅读全文
posted @ 2025-05-22 22:20 xiezhengcai
阅读(33)
评论(0)
推荐(0)
2025年5月9日
nccl & mpi 跨节点通信
摘要: 假如有两个节点, 每个节点两个GPU 查看系统与机器架构: uname -m lsb_release -a 在每台机器上操作 安装nccl wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/
阅读全文
posted @ 2025-05-09 02:41 xiezhengcai
阅读(246)
评论(0)
推荐(0)
2025年4月29日
cudaMemsetParams 参数详细
摘要: struct cudaMemsetParams { void *dst; // 目标内存地址(设备端指针) size_t pitch; // 每行的跨度(字节),仅在 height > 1 时有用 unsigned int value; // 要设置的值(只使用低字节,不支持浮点) unsigned
阅读全文
posted @ 2025-04-29 15:51 xiezhengcai
阅读(11)
评论(0)
推荐(0)
cuda 中的内存拷贝
摘要: 明白几个概念 cudaPitchedPtr(void *ptr, size_t pitch, size_t xsize, size_t ysize) cudaPitchedPtr 用于描述一块有行跨度的内存空间。 pitch pitch 在内存管理中,它指物理内存中实际分配的行跨度,表示从一行数据跳
阅读全文
posted @ 2025-04-29 15:02 xiezhengcai
阅读(31)
评论(0)
推荐(0)
1
2
3
4
5
···
12
下一页
公告