上一页 1 2 3 4 5 6 ··· 119 下一页

2025年5月31日

【NVSHMEM】NVSHMEM文档

摘要: NVIDIA OpenSHMEM Library (NVSHMEM) Documentation NVIDIA OpenSHMEM Library (NVSHMEM) Documentation — NVSHMEM 3.2.5 documentation NVSHMEM为NVIDIA® GPU集群实 阅读全文

posted @ 2025-05-31 17:12 bdy 阅读(23) 评论(0) 推荐(0)

2025年5月9日

【NCCL】DBT算法(double binary tree,双二叉树)

摘要: 目录 前言 ring 不足,需要 tree 朴素二叉tree只利用了一半带宽,需要 双二叉 tree 双二叉树的构造 ringvs 双二叉树 测试 ring和tree的选择 nccl tree tree搜索 基本概念解释 最大化局部性构建二叉树的方式 这种构建方式的好处 示例说明 前言 参考:万卡集 阅读全文

posted @ 2025-05-09 22:15 bdy 阅读(51) 评论(0) 推荐(0)

2025年4月15日

【vscode】vscode链接关联github/gitlab

摘要: 一、windows下载安装git Git - Downloading Package 二、配置Git的用户名和邮箱 Git Bash运行以下命令来配置Git的用户名和邮箱: git config --global user.name "你的用户名" git config --global user. 阅读全文

posted @ 2025-04-15 06:36 bdy 阅读(88) 评论(0) 推荐(0)

【GPU】CUDA、OpenCL、OpenMP、OpenACC等并行运算框架区别

摘要: CUDA版本更新很快,但仅限N卡。OpenCL跨平台,社区貌似不太活跃,更新不如CUDA。 OpenMP 主要是针对CPU,最近开始支持GPU了,OpenACC:适合需要快速将CPU代码移植到GPU上的并行计算任务。 CUDA: NVIDIA公司开发的一种并行计算平台和编程模型(平台+API),只支 阅读全文

posted @ 2025-04-15 06:20 bdy 阅读(25) 评论(0) 推荐(0)

2025年3月24日

【大模型】通信元语和相关概念|NCCL梯度|Allreduce|Scatter|Broadcast|Gather

摘要: 目录 概念解释 通讯元语 Scatter(发散) Broadcast Gather(收集) All-Gather(全收集) Reduce-Scatter(规约发散) Reduce All-Reduce(全规约) Allreduce与Ring-Allreduce的区别? All to All (Gat 阅读全文

posted @ 2025-03-24 05:33 bdy 阅读(69) 评论(0) 推荐(0)

2025年3月20日

【RDMA】NUMA对RDMA单边操作影响的性能评估

摘要: ​​​​​​​目录 摘要 一、前言 二、背景 非均匀内存访问 远程直接内存访问 NUMA和RDMA I/O 三、相关工作 四、实验设置 A. 局部性 B. 测试平台配置 C. 工作负载特性 五、微基准测试 A. 单个操作延迟 B. 不同 RDMA 访问IO大小的吞吐量 C. 独立应用负载 D. 远程 阅读全文

posted @ 2025-03-20 12:32 bdy 阅读(31) 评论(0) 推荐(0)

2025年3月19日

【工具】VS code AI 代码助手

摘要: 目录 百度快码 介绍 使用 安装 功能 代码补全 注释生成代码 GitHub Copilot 介绍 使用 通义灵码(通义千问) 其他产品 百度快码 介绍 文心快码 (Baidu Comate) 是百度的 AI 编码辅助工具 核心功能 代码补全:提供建议,按下 Tab 采纳。超级代码补全:代码补全的升 阅读全文

posted @ 2025-03-19 11:07 bdy 阅读(100) 评论(0) 推荐(0)

2025年3月9日

【GPU】什么是 NVLink?

摘要: 目录 前言 NVLink说明 简介 技术特点 应用领域 如何使用nvlink 一 环境准备 二 NVLink使用 实际应用 注意事项 常用状态查询 前言 建议阅读官网说明或官方博客文章: NVLink & NVSwitch: https://www.nvidia.com/en-us/data-cen 阅读全文

posted @ 2025-03-09 16:25 bdy 阅读(134) 评论(0) 推荐(0)

【GPU】什么是NCCL和Simple, LL, LL128通信协议

摘要: 什么是NCCL 简介 NCCL (NVIDIA Collective Communications Library,NVIDIA 集群通信) 是 NVIDIA 专为 GPU设计用于 GPU 之间高性能通信的库。 深度学习模型规模巨大,需要将模型或数据分割到多个 GPU 上进行并行训练,NCCL 就是 阅读全文

posted @ 2025-03-09 15:48 bdy 阅读(131) 评论(0) 推荐(0)

【CUDA】什么是CUDA?什么是CUDA编程?

摘要: 目录 什么是CUDA? 什么是CUDA编程? CUDA特性 1. 统一的编程模型 2. 统一的硬件架构 3. 统一的内存访问模型 4. 统一的开发工具 CUDA 编程的核心概念 CUDA 编程的基本步骤 CUDA 编程的优势 示例代码:向量加法 总结 什么是CUDA? CUDA(Compute Un 阅读全文

posted @ 2025-03-09 05:21 bdy 阅读(19) 评论(0) 推荐(0)

上一页 1 2 3 4 5 6 ··· 119 下一页

导航