摘要: Pytorch DTensor 我们引入分布式tensor原语,可以更容易地使用SPMD(single program multi devices)模式来编写分布式计算。这些原语可以表达出 shard 和 replicate 的概念。一个例子如下: # run command: uv run tor 阅读全文
posted @ 2025-03-20 21:18 xwher 阅读(374) 评论(0) 推荐(1)
摘要: Pytorch distributed 概述 本节我们介绍一下 torch.distributed Pytorch 分布式库主要包含一套并行的模块,一个通信层,以及对于运行和debug大规模训练的infra 主要有以下四个并行的apis: DDP(分布式数据并行) FSDP (fully shard 阅读全文
posted @ 2025-03-20 17:47 xwher 阅读(168) 评论(0) 推荐(0)
摘要: 本节主要探讨cute layouts,本质上一个Layout是从坐标(coord)空间到索引(index)空间的映射。 Layouts 提出了一个针对多维数组访问的通用接口,它隐藏了数据元素是如何存储在内存上的细节。例如,一个row-major的 MxN的layout和一个col-major的 Mx 阅读全文
posted @ 2025-03-20 15:30 xwher 阅读(130) 评论(0) 推荐(0)
摘要: cute是一系列C++ CUDA的模板抽象,用于定义和操作线程和数据的层次化多维layouts。cute提供 Layout 以及 Tensor 对象;其中 Tensor 将 数据类型、形状、内存空间以及数据的layout进行一个封装,用户可以对这个 Tensor 进行复杂的索引操作。这样可以使得用户 阅读全文
posted @ 2025-03-20 13:13 xwher 阅读(213) 评论(0) 推荐(0)