摘要: K.3.3 共享内存共享内存采用32个存储体的组织结构,连续的32位字依次映射到相邻存储体。每个存储体每个时钟周期可提供32位带宽。 当线程束发起共享内存请求时,若两个线程访问同一32位字内的地址(即使地址位于相同存储体)不会引发存储体冲突: 对于读取操作:该字将通过广播机制传送至所有请求线程 对于 阅读全文
posted @ 2025-04-13 05:02 吴建明wujianming 阅读(40) 评论(0) 推荐(0)
摘要: G.4 优化内存复用CUDA通过两种方式实现内存复用:‣ 图内复用:基于虚拟地址分配的虚拟内存与物理内存复用(类似流顺序分配器机制)‣ 图间复用:通过虚拟别名技术实现物理内存复用,不同图可将相同物理内存映射到各自的独立虚拟地址 G.4.1 图内地址复用CUDA可能通过为生命周期不重叠的不同内存分配分 阅读全文
posted @ 2025-04-13 04:54 吴建明wujianming 阅读(77) 评论(0) 推荐(0)
摘要: 上图可通过以下示例代码生成: __global__ void launchFireAndForgetGraph(cudaGraphExec_t graph) { cudaGraphLaunch(graph, cudaStreamGraphFireAndForget);}void graphSetup 阅读全文
posted @ 2025-04-13 04:42 吴建明wujianming 阅读(49) 评论(0) 推荐(0)
摘要: 6本书推荐《MLIR编译器原理与实践》、《ONNX人工智能技术与开发实践》、《AI芯片开发核心技术详解》、《智能汽车传感器:原理·设计·应用》、《TVM编译器原理与实践》、《LLVM编译器原理与实践》 由清华大学出版社资深编辑赵佳霓老师策划编辑的新书《MLIR编译器原理与实践》已经出版,京东、淘宝天 阅读全文
posted @ 2025-04-13 04:25 吴建明wujianming 阅读(14) 评论(0) 推荐(0)