2025 年 3月 20 日随笔档案 - xwher

2025年3月20日

摘要： Pytorch DTensor 我们引入分布式tensor原语，可以更容易地使用SPMD(single program multi devices)模式来编写分布式计算。这些原语可以表达出 shard 和 replicate 的概念。一个例子如下： # run command: uv run tor 阅读全文

posted @ 2025-03-20 21:18 xwher 阅读(374) 评论(0) 推荐(1)

torch.distributed 概述

摘要： Pytorch distributed 概述本节我们介绍一下 torch.distributed Pytorch 分布式库主要包含一套并行的模块，一个通信层，以及对于运行和debug大规模训练的infra 主要有以下四个并行的apis: DDP(分布式数据并行) FSDP (fully shard 阅读全文

posted @ 2025-03-20 17:47 xwher 阅读(168) 评论(0) 推荐(0)

cute 教程 01

摘要：本节主要探讨cute layouts，本质上一个Layout是从坐标(coord)空间到索引(index)空间的映射。 Layouts 提出了一个针对多维数组访问的通用接口，它隐藏了数据元素是如何存储在内存上的细节。例如，一个row-major的 MxN的layout和一个col-major的 Mx 阅读全文

posted @ 2025-03-20 15:30 xwher 阅读(130) 评论(0) 推荐(0)

cute 教程 00

摘要： cute是一系列C++ CUDA的模板抽象，用于定义和操作线程和数据的层次化多维layouts。cute提供 Layout 以及 Tensor 对象；其中 Tensor 将数据类型、形状、内存空间以及数据的layout进行一个封装，用户可以对这个 Tensor 进行复杂的索引操作。这样可以使得用户阅读全文

posted @ 2025-03-20 13:13 xwher 阅读(213) 评论(0) 推荐(0)

xwher

公告