bdy - 博客园

【NVSHMEM】NVSHMEM文档

摘要： NVIDIA OpenSHMEM Library (NVSHMEM) Documentation NVIDIA OpenSHMEM Library (NVSHMEM) Documentation — NVSHMEM 3.2.5 documentation NVSHMEM为NVIDIA® GPU集群实阅读全文

posted @ 2025-05-31 17:12 bdy 阅读(23) 评论(0) 推荐(0)

【NCCL】DBT算法(double binary tree，双二叉树)

摘要：目录前言 ring 不足，需要 tree 朴素二叉tree只利用了一半带宽，需要双二叉 tree 双二叉树的构造 ringvs 双二叉树测试 ring和tree的选择 nccl tree tree搜索基本概念解释最大化局部性构建二叉树的方式这种构建方式的好处示例说明前言参考：万卡集阅读全文

posted @ 2025-05-09 22:15 bdy 阅读(51) 评论(0) 推荐(0)

【vscode】vscode链接关联github/gitlab

摘要：一、windows下载安装git Git - Downloading Package 二、配置Git的用户名和邮箱 Git Bash运行以下命令来配置Git的用户名和邮箱： git config --global user.name "你的用户名" git config --global user. 阅读全文

posted @ 2025-04-15 06:36 bdy 阅读(88) 评论(0) 推荐(0)

【GPU】CUDA、OpenCL、OpenMP、OpenACC等并行运算框架区别

摘要： CUDA版本更新很快，但仅限N卡。OpenCL跨平台，社区貌似不太活跃，更新不如CUDA。 OpenMP 主要是针对CPU，最近开始支持GPU了，OpenACC：适合需要快速将CPU代码移植到GPU上的并行计算任务。 CUDA: NVIDIA公司开发的一种并行计算平台和编程模型（平台+API），只支阅读全文

posted @ 2025-04-15 06:20 bdy 阅读(25) 评论(0) 推荐(0)

【大模型】通信元语和相关概念|NCCL梯度|Allreduce|Scatter|Broadcast|Gather

摘要：目录概念解释通讯元语 Scatter（发散） Broadcast Gather（收集） All-Gather（全收集） Reduce-Scatter（规约发散） Reduce All-Reduce（全规约） Allreduce与Ring-Allreduce的区别？ All to All (Gat 阅读全文

posted @ 2025-03-24 05:33 bdy 阅读(69) 评论(0) 推荐(0)

【RDMA】NUMA对RDMA单边操作影响的性能评估

摘要：目录摘要一、前言二、背景非均匀内存访问远程直接内存访问 NUMA和RDMA I/O 三、相关工作四、实验设置 A. 局部性 B. 测试平台配置 C. 工作负载特性五、微基准测试 A. 单个操作延迟 B. 不同 RDMA 访问IO大小的吞吐量 C. 独立应用负载 D. 远程阅读全文

posted @ 2025-03-20 12:32 bdy 阅读(31) 评论(0) 推荐(0)

【工具】VS code AI 代码助手

摘要：目录百度快码介绍使用安装功能代码补全注释生成代码 GitHub Copilot 介绍使用通义灵码（通义千问）其他产品百度快码介绍文心快码 (Baidu Comate) 是百度的 AI 编码辅助工具核心功能代码补全：提供建议，按下 Tab 采纳。超级代码补全：代码补全的升阅读全文

posted @ 2025-03-19 11:07 bdy 阅读(100) 评论(0) 推荐(0)

【GPU】什么是 NVLink？

摘要：目录前言 NVLink说明简介技术特点应用领域如何使用nvlink 一环境准备二 NVLink使用实际应用注意事项常用状态查询前言建议阅读官网说明或官方博客文章: NVLink & NVSwitch: https://www.nvidia.com/en-us/data-cen 阅读全文

posted @ 2025-03-09 16:25 bdy 阅读(134) 评论(0) 推荐(0)

【GPU】什么是NCCL和Simple, LL, LL128通信协议

摘要：什么是NCCL 简介 NCCL (NVIDIA Collective Communications Library,NVIDIA 集群通信) 是 NVIDIA 专为 GPU设计用于 GPU 之间高性能通信的库。深度学习模型规模巨大，需要将模型或数据分割到多个 GPU 上进行并行训练，NCCL 就是阅读全文

posted @ 2025-03-09 15:48 bdy 阅读(131) 评论(0) 推荐(0)

【CUDA】什么是CUDA？什么是CUDA编程？

摘要：目录什么是CUDA？什么是CUDA编程？ CUDA特性 1. 统一的编程模型 2. 统一的硬件架构 3. 统一的内存访问模型 4. 统一的开发工具 CUDA 编程的核心概念 CUDA 编程的基本步骤 CUDA 编程的优势示例代码：向量加法总结什么是CUDA？ CUDA（Compute Un 阅读全文

posted @ 2025-03-09 05:21 bdy 阅读(19) 评论(0) 推荐(0)

UESTC