xiezhengcai - 博客园

2026年3月18日

摘要：第一层：流程观测日志每个关键处理阶段结束时输出一条规范日志行，字段密集、自包含，基本不需要跨行关联就能看到完整信息的日志，日志中应包含下面的字段 [pipeline, input, output, config] 其中，如果input是上一个阶段的输出， input 可以为空， pipelin 阅读全文

posted @ 2026-03-18 11:32 xiezhengcai 阅读(5) 评论(0) 推荐(0)

2026年2月25日

Ai阅读代码的局限性

摘要：能学到的： ├── 代码显式写的东西 ├── 注释中明确说的 ├── 函数名暗示的 └── 论文摘要和教程看不到的： ├── 实验者的隐性决策逻辑 ├── "为什么选择这个而不是那个"的比对数据 ├── 领域的最新趋势和共识 ├── 某个选择的"成本-收益"权衡分析 └── 该领域未发表的工程经验阅读全文

posted @ 2026-02-25 15:10 xiezhengcai 阅读(2) 评论(0) 推荐(0)

2025年12月25日

业务系统缓存加速的五种缓存设计

摘要：缓存内容的五个维度：业务实体缓存数据表记录缓存业务接口缓存业务实体关系缓存计算中间结果缓存第一种，最常用，通常缓存业务完整的实体信息，比如，商品信息缓存、包裹信息缓存、用户信息缓存等等。缓存的key通常是业务实体ID，比如商品id，包裹id，用户id 等等，它在查找业务信阅读全文

posted @ 2025-12-25 10:30 xiezhengcai 阅读(12) 评论(0) 推荐(0)

2025年7月17日

The CustomResourceDefinition "applications.apps.abc.com" is invalid: metadata.annotations: Too long: must have at most 262144 bytes

摘要：参考文章： https://medium.com/pareture/kubectl-install-crd-failed-annotations-too-long-2ebc91b40c7d 原因：使用kubectl apply创建或更新资源时，系统都会自动添加一个名为kubectl.kuberne 阅读全文

posted @ 2025-07-17 11:42 xiezhengcai 阅读(60) 评论(0) 推荐(0)

2025年7月16日

vscode ssh开发无法读取go env配置

摘要： Ctrl + Shift + P Preferences: Open Settings (JSON) 输入： { "go.goroot": "/usr/local/go", "go.gopath": "/usr/local/go/gopath", "go.toolsEnvVars": { "GO11 阅读全文

posted @ 2025-07-16 20:26 xiezhengcai 阅读(19) 评论(0) 推荐(0)

2025年6月8日

deepspeed

摘要：创建新 screen 会话 screen -S deepspeed_train 使用日志重定向 screen -L -Logfile train.log -S deepspeed_train 在 screen 中启动训练 deepspeed --num_gpus=4 train_script.py 阅读全文

posted @ 2025-06-08 03:58 xiezhengcai 阅读(22) 评论(0) 推荐(0)

2025年5月23日

ray + nccl + 张量并行训练

摘要：数据并行首先要有一个分布式的环境，比如ray 有一个集合通讯的后端比如nccl 将模型初始化为DDP数据并行模型,并指定全局rank 数据使分布式采样进行模型训练假如ray集群有两个节点，主节点ip=10.230.40.150 ， ray集群集群启动时，每个节点分配一张显卡， import 阅读全文

posted @ 2025-05-23 20:33 xiezhengcai 阅读(241) 评论(0) 推荐(0)

ray集群

摘要：集群启动：所有节点确保安装 pip install pydantic aiohttp_cors opencensus opencensus-ext-prometheus aiohttp grpcio protobuf 否则 dashboard 进程无法正常监听通过pip list | grep 阅读全文

posted @ 2025-05-23 18:52 xiezhengcai 阅读(265) 评论(0) 推荐(0)

ray 分布式，工作节点、reylet、主节点、GCS

摘要：工作节点、reylay 每一个工作节点有一名reylet组件，负责管理工作进程，在工作节点上的任务共享reylet，负责任务调度和对象存储（如rey.put）, 对象存储在节点内形成共享内存池，并确保worker进程可以访问其它节点的对象，对象存储由Plasma实现，调度器负责资源管理工作，管理c 阅读全文

posted @ 2025-05-23 13:14 xiezhengcai 阅读(240) 评论(0) 推荐(0)

2025年5月22日

ray分布式

摘要： import os os.environ["RAY_DEDUP_LOGS"] = "0" import time import ray database = ["Learning", "ray", "a", "b","c"] db_obeject_ref = ray.put(database) @r 阅读全文

posted @ 2025-05-22 22:20 xiezhengcai 阅读(65) 评论(0) 推荐(0)

無名

大猫咪与小狮子

公告