2025 年 4月 13 日随笔档案 - 吴建明wujianming

2025年4月13日

摘要： K.3.3 共享内存共享内存采用32个存储体的组织结构，连续的32位字依次映射到相邻存储体。每个存储体每个时钟周期可提供32位带宽。当线程束发起共享内存请求时，若两个线程访问同一32位字内的地址（即使地址位于相同存储体）不会引发存储体冲突：对于读取操作：该字将通过广播机制传送至所有请求线程对于阅读全文

posted @ 2025-04-13 05:02 吴建明wujianming 阅读(40) 评论(0) 推荐(0)

GPU CUDA G.4 优化内存复用

摘要： G.4 优化内存复用CUDA通过两种方式实现内存复用：‣ 图内复用：基于虚拟地址分配的虚拟内存与物理内存复用（类似流顺序分配器机制）‣ 图间复用：通过虚拟别名技术实现物理内存复用，不同图可将相同物理内存映射到各自的独立虚拟地址 G.4.1 图内地址复用CUDA可能通过为生命周期不重叠的不同内存分配分阅读全文

posted @ 2025-04-13 04:54 吴建明wujianming 阅读(77) 评论(0) 推荐(0)

GPU CUDA设备图谱发布

摘要：上图可通过以下示例代码生成： __global__ void launchFireAndForgetGraph(cudaGraphExec_t graph) { cudaGraphLaunch(graph, cudaStreamGraphFireAndForget);}void graphSetup 阅读全文

posted @ 2025-04-13 04:42 吴建明wujianming 阅读(49) 评论(0) 推荐(0)

摘要： 6本书推荐《MLIR编译器原理与实践》、《ONNX人工智能技术与开发实践》、《AI芯片开发核心技术详解》、《智能汽车传感器：原理·设计·应用》、《TVM编译器原理与实践》、《LLVM编译器原理与实践》由清华大学出版社资深编辑赵佳霓老师策划编辑的新书《MLIR编译器原理与实践》已经出版，京东、淘宝天阅读全文

posted @ 2025-04-13 04:25 吴建明wujianming 阅读(14) 评论(0) 推荐(0)

吴建明

微信视频号：sph0RgSyDYV47z6 快手号：4874645212 抖音号：dy0so323fq2w 小红书号：95619019828 B站1：UID:3546863642871878 B站2：UID: 3546955410049087

公告