摘要: 1. 简介 用 mma PTX 指令实现 M16N16K16 矩阵乘法 2. 代码 调用1:wmma + sharedM 调用2:wmma + sharedM + padding 避免 bankcoflict 调用3:mma + sharedM + swizzle 避免 bankcoflict // 阅读全文
posted @ 2025-11-08 14:54 安洛8 阅读(28) 评论(0) 推荐(0)
摘要: 1. 背景知识 常说的 bankConflict 指的在共享内存的 store load 过程中产生。 共享内存位于 L1TexCache 上,使用场景通常为从 GlobalMemeory store to SharedM,sharedM load to register。 共享内存的硬件实现:为实 阅读全文
posted @ 2025-11-08 11:46 安洛8 阅读(69) 评论(0) 推荐(0)