摘要: 本文是CUDA矩阵乘法系列文章的上篇。这个系列会从一个最简单的实现出发,逐步优化到cuBLAS标准库86%的性能,并详细介绍其中涉及到的CUDA性能优化技巧。 本文首先给出了一个开箱即用的实验源代码,然后介绍了GPU硬件知识以及3种简单实现,逐步展示了把性能从cuBLAS的0.39%优化到16%,即性能提升40倍的“魔法”。 阅读全文
posted @ 2025-11-01 19:49 QZero 阅读(144) 评论(0) 推荐(0)