bdy - 博客园

【NCCL】NCCL 中的channel 是什么概念？

摘要：在 NCCL中，Channel是本质是一组用于数据传输的 “虚拟通信链路”，封装了通信双方的连接、数据缓冲、传输协议，peer信息、ring/tree拓扑结构等细节。 NCCL 通过 Channel 抽象，将复杂的多 GPU 互联（如 PCIe、NVLink、InfiniBand）隐藏在底层，上层只阅读全文

posted @ 2025-11-12 21:04 bdy 阅读(216) 评论(0) 推荐(0)

【NCCL】Merged Device(合并设备)和bond的区别

摘要： NCCL 中将多个设备合并为一个逻辑连接，这种合并被称为"Merged Device"（合并设备）。 "Merged Device"和bond 的区别 "Merged Device"与网络绑定（bonding）之间的异同：相似之处聚合带宽: 两者都旨在通过组合多个物理网络接口来增加总带宽。负载分阅读全文

posted @ 2025-11-04 17:33 bdy 阅读(109) 评论(0) 推荐(0)

【NCCL】什么是PXN

摘要：原文：https://developer.nvidia.com/blog/doubling-all2all-performance-with-nvidia-collective-communication-library-2-12/ 将 NVLink 与网络通信相结合 PXN 使得GPU能够通过NV 阅读全文

posted @ 2025-11-03 18:14 bdy 阅读(335) 评论(0) 推荐(0)

【RDMA】mlx5dev mlx5dv_devx 接口

摘要：目录 mlx5dev和mlx5dv_devx的关系 mlx5dev mlx5dv_devx mlx5dv_modify_qp_lag_port 和 mlx5dv_modify_qp_udp_sport 的区别是？ mlx5dv 接口家族 mlx5dev和mlx5dv_devx的关系 mlx5dev 阅读全文

posted @ 2025-10-30 20:39 bdy 阅读(134) 评论(0) 推荐(0)

【C/C++】动态加载(dlopen)和直接链接库的区别

摘要：动态加载(dlopen)方式加载库和直接链接库有什么区别动态加载（dlopen 方式）和直接链接库是程序使用外部库的两种不同方式，主要区别体现在加载时机、灵活性、依赖管理等方面，具体如下：直接链接库 vs. 动态加载 (dlopen) 对比表特性维度直接链接库动态加载 (dlopen)1. 阅读全文

posted @ 2025-10-25 15:38 bdy 阅读(140) 评论(0) 推荐(0)

【NCCL】Ring Allreduce

摘要： AllReduce算法概述 AllReduce主要目的是在所有处理器上收集并汇总数据，使得每个处理器都能获得全局数据的归约结果。 AllReduce就像一个“班级大合唱的收票统计”：假设一个班有4个小组，每个小组算出了自己应该交的班费（比如A组10元，B组20元，C组30元，D组40元）。AllR 阅读全文

posted @ 2025-10-09 20:31 bdy 阅读(873) 评论(0) 推荐(0)

【RDMA】GDR和GDA的区别(GPUDirect Async vs GPU Direct RDMA）

摘要：简述 GDR（GPU Direct RDMA）直达网卡,解决了 “数据路径” 问题：让 RDMA 设备直接访问 GPU 内存，无需主机内存中转；GDA GPUDirect Async 直达异步(操控)，解决了 “控制路径” 问题：让 GPU 自主管理通信流程，无需 CPU 参与控制。介绍 GDA 阅读全文

posted @ 2025-08-10 00:34 bdy 阅读(690) 评论(0) 推荐(0)

【RDMA】Adapters PRM Mellanox Adapters Programmer’s Reference mellanox网卡编程手册0.52

摘要： Mellanox 网卡程序员参考手册（PRM）文档 0.52 +0.53+0.40版本下载链接： https://download.csdn.net/download/bandaoyu/91492463 https://network.nvidia.com/files/doc-2020/ethe 阅读全文

posted @ 2025-07-25 23:55 bdy 阅读(120) 评论(0) 推荐(0)

【CUDA】warp洗牌shuffle：_shfl_sync、__shfl_up_sync、__shfl_down_sync 和 __shfl_xor_sync函数

摘要：由计算能力 3.x 或更高版本的设备支持。弃用通知：__shfl、__shfl_up、__shfl_down 和 __shfl_xor 在 CUDA 9.0 中已针对所有设备弃用。删除通知：当面向具有 7.x 或更高计算能力的设备时，__shfl、__shfl_up、__shfl_down 和阅读全文

posted @ 2025-07-17 00:31 bdy 阅读(448) 评论(0) 推荐(0)

【NVSHMEM】NVSHMEM 3.0新增特性和兼容性

摘要：原文：https://developer.nvidia.com/blog/enhancing-application-portability-and-compatibility-across-new-platforms-using-nvidia-magnum-io-nvshmem-3-0/ 一、内容阅读全文

posted @ 2025-06-21 00:16 bdy 阅读(134) 评论(0) 推荐(0)