摘要:
示例3–V_MFMA_F64_4x4x4F64 考虑V_MFMA_F64_4x4x4F64指令,它计算大小为4×4的四个独立矩阵块的MFMA。执行的操作是 ,其中 , , 和 都是大小为4×4元素的矩阵,N=0,1,2,3。 下面的两张图显示了 1)输入参数A和B的四个分量的大小和形状,如图4-18 阅读全文
posted @ 2025-03-18 03:58
吴建明wujianming
阅读(136)
评论(0)
推荐(0)
摘要:
ROCm技术小结与回顾 在这一部分中,首先检查了Kernel 5在各种AMD GPU和问题大小上的性能,并注意到当网格超过一定大小阈值时,性能似乎会急剧下降。通过实验确定,LLC的大小是大型xy平面问题性能的限制因素。提出了两种不同的解决方法来规避缓存大小的问题,这两种方法都只需要修改几行代码。 在 阅读全文
posted @ 2025-03-18 03:51
吴建明wujianming
阅读(143)
评论(0)
推荐(0)
摘要:
有限差分法——拉普拉斯第4部分 提出了拉普拉斯算子有限差分法的HIP实现,并应用了四种不同的优化。在这些代码修改过程中,观察到由于全局内存的总取数减少,性能得到了逐步提高。然后,应用了进一步的优化,以在512×512×512上达到预期的性能目标MI250X GPU的单个GCD上的512个点网格。下面 阅读全文
posted @ 2025-03-18 03:42
吴建明wujianming
阅读(48)
评论(0)
推荐(0)
摘要:
6本书推荐《MLIR编译器原理与实践》、《ONNX人工智能技术与开发实践》、《AI芯片开发核心技术详解》、《智能汽车传感器:原理·设计·应用》、《TVM编译器原理与实践》、《LLVM编译器原理与实践》 由清华大学出版社资深编辑赵佳霓老师策划编辑的新书《MLIR编译器原理与实践》已经出版,京东、淘宝天 阅读全文
posted @ 2025-03-18 03:36
吴建明wujianming
阅读(24)
评论(0)
推荐(0)

浙公网安备 33010602011771号