2025年11月12日

【NCCL】NCCL 中的channel 是什么概念?

摘要: 在 NCCL中,Channel是本质是一组用于数据传输的 “虚拟通信链路”,封装了通信双方的连接、数据缓冲、传输协议,peer信息、ring/tree拓扑结构等细节。 NCCL 通过 Channel 抽象,将复杂的多 GPU 互联(如 PCIe、NVLink、InfiniBand)隐藏在底层,上层只 阅读全文

posted @ 2025-11-12 21:04 bdy 阅读(4) 评论(0) 推荐(0)

2025年11月4日

【NCCL】Merged Device(合并设备)和bond的区别

摘要: NCCL 中将多个设备合并为一个逻辑连接,这种合并被称为"Merged Device"(合并设备)。 "Merged Device"和bond 的区别 "Merged Device"与网络绑定(bonding)之间的异同: 相似之处 聚合带宽: 两者都旨在通过组合多个物理网络接口来增加总带宽。负载分 阅读全文

posted @ 2025-11-04 17:33 bdy 阅读(1) 评论(0) 推荐(0)

2025年11月3日

【NCCL】什么是PXN

摘要: 原文:https://developer.nvidia.com/blog/doubling-all2all-performance-with-nvidia-collective-communication-library-2-12/ 将 NVLink 与网络通信相结合 PXN 使得GPU能够通过NV 阅读全文

posted @ 2025-11-03 18:14 bdy 阅读(3) 评论(0) 推荐(0)

2025年10月30日

【RDMA】mlx5dev mlx5dv_devx 接口

摘要: 目录 mlx5dev和mlx5dv_devx的关系 mlx5dev mlx5dv_devx mlx5dv_modify_qp_lag_port 和 mlx5dv_modify_qp_udp_sport 的区别是? mlx5dv 接口家族 mlx5dev和mlx5dv_devx的关系 mlx5dev 阅读全文

posted @ 2025-10-30 20:39 bdy 阅读(3) 评论(0) 推荐(0)

2025年10月25日

【C/C++】动态加载(dlopen)和直接链接 库的区别

摘要: 动态加载(dlopen)方式加载库和直接链接库 有什么区别 动态加载(dlopen 方式)和直接链接库是程序使用外部库的两种不同方式,主要区别体现在加载时机、灵活性、依赖管理等方面,具体如下: 直接链接库 vs. 动态加载 (dlopen) 对比表 特性维度直接链接库动态加载 (dlopen)1. 阅读全文

posted @ 2025-10-25 15:38 bdy 阅读(4) 评论(0) 推荐(0)

2025年10月9日

【NCCL】Ring Allreduce

摘要: AllReduce算法概述 AllReduce主要目的是在所有处理器上收集并汇总数据,使得每个处理器都能获得全局数据的归约结果。 AllReduce就像一个“班级大合唱的收票统计”: 假设一个班有4个小组,每个小组算出了自己应该交的班费(比如A组10元,B组20元,C组30元,D组40元)。AllR 阅读全文

posted @ 2025-10-09 20:31 bdy 阅读(9) 评论(0) 推荐(0)

2025年8月10日

【RDMA】GDR和GDA的区别(GPUDirect Async vs GPU Direct RDMA)

摘要: 简述 GDR(GPU Direct RDMA)直达网卡,解决了 “数据路径” 问题:让 RDMA 设备直接访问 GPU 内存,无需主机内存中转;GDA GPUDirect Async 直达异步(操控),解决了 “控制路径” 问题:让 GPU 自主管理通信流程,无需 CPU 参与控制。 介绍 GDA 阅读全文

posted @ 2025-08-10 00:34 bdy 阅读(6) 评论(0) 推荐(0)

2025年7月25日

【RDMA】Adapters PRM Mellanox Adapters Programmer’s Reference mellanox网卡编程手册0.52

摘要: Mellanox 网卡程序员参考手册 (PRM) 文档 0.52 +0.53+0.40版本下载链接: https://download.csdn.net/download/bandaoyu/91492463 https://network.nvidia.com/files/doc-2020/ethe 阅读全文

posted @ 2025-07-25 23:55 bdy 阅读(0) 评论(0) 推荐(0)

2025年7月17日

【CUDA】warp洗牌shuffle:_shfl_sync、__shfl_up_sync、__shfl_down_sync 和 __shfl_xor_sync函数

摘要: 由计算能力 3.x 或更高版本的设备支持。 弃用通知:__shfl、__shfl_up、__shfl_down 和 __shfl_xor 在 CUDA 9.0 中已针对所有设备弃用。 删除通知:当面向具有 7.x 或更高计算能力的设备时,__shfl、__shfl_up、__shfl_down 和 阅读全文

posted @ 2025-07-17 00:31 bdy 阅读(3) 评论(0) 推荐(0)

2025年6月21日

【NVSHMEM】NVSHMEM 3.0新增特性和兼容性

摘要: 原文:https://developer.nvidia.com/blog/enhancing-application-portability-and-compatibility-across-new-platforms-using-nvidia-magnum-io-nvshmem-3-0/ 一、内容 阅读全文

posted @ 2025-06-21 00:16 bdy 阅读(4) 评论(0) 推荐(0)

导航