摘要: CUDA提高Memory throughput的方法 内容 在 CUDA 编程中,提高内存吞吐量(Memory Throughput)是优化性能的关键。以下是系统化的优化策略和示例: 1. 理解内存层次与带宽 CUDA 设备的内存层次包括: 全局内存(Global Memory):高延迟,低带宽(但 阅读全文
posted @ 2025-03-14 19:50 Gold_stein 阅读(230) 评论(0) 推荐(0)
摘要: cuda12+版本==WARNING== Could not deploy stock section解决办法 前置条件 如果是在wsl2当中进行使用,需要现在NVIDIA控制面板当中,允许所有用户访问性能计数器。 问题描述 在学习cuda-training-series期间,遇到了这样的问题: 使 阅读全文
posted @ 2025-03-14 19:36 Gold_stein 阅读(132) 评论(1) 推荐(0)
摘要: CUDA bank常见误区——宽度和容量 内容 Bank的宽度(Width)和Bank的容量(Capacity)是两个独立的概念,它们分别描述了Bank的不同特性。以下是详细解释: 1. Bank的宽度(Width) 定义:Bank的宽度指每次访问能读写的数据位数。 CUDA的实现: 每个Bank的 阅读全文
posted @ 2025-03-14 15:18 Gold_stein 阅读(90) 评论(0) 推荐(0)
摘要: cuDNN vs 推理框架 内容 深度学习中计算加速库与推理框架有明确的定位差异。以下从技术架构角度解析两者的区别,并列举主流推理框架及其应用场景: CUDA Deep Neural Network (cuDNN) 核心定位 属性 说明 层级 GPU加速库(底层计算原语) 主要场景 训练/推理阶段的 阅读全文
posted @ 2025-03-14 15:06 Gold_stein 阅读(112) 评论(0) 推荐(0)
摘要: 根据给定数字生成等概率随机数 内容 要使用两个[1,7]的随机数生成[1,9]的等概率随机数,可以通过以下步骤实现: 核心思路 组合范围:两个1-7的随机数共有 (7 \times 7 = 49) 种组合。 均匀分组:将49种组合中的45种均匀分配给1-9(每组5种),剩余4种组合拒绝并重试。 拒绝 阅读全文
posted @ 2025-03-14 15:02 Gold_stein 阅读(61) 评论(0) 推荐(0)