摘要:
1. 简介 用 mma PTX 指令实现 M16N16K16 矩阵乘法 2. 代码 调用1:wmma + sharedM 调用2:wmma + sharedM + padding 避免 bankcoflict 调用3:mma + sharedM + swizzle 避免 bankcoflict // 阅读全文
posted @ 2025-11-08 14:54
安洛8
阅读(28)
评论(0)
推荐(0)
摘要:
1. 背景知识 常说的 bankConflict 指的在共享内存的 store load 过程中产生。 共享内存位于 L1TexCache 上,使用场景通常为从 GlobalMemeory store to SharedM,sharedM load to register。 共享内存的硬件实现:为实 阅读全文
posted @ 2025-11-08 11:46
安洛8
阅读(69)
评论(0)
推荐(0)

浙公网安备 33010602011771号