摘要: 1. 介绍 矩阵A(MK) B(KN)单精度浮点数进行矩阵乘法; 分别实现CPU串行,GPU多种并行计算算法,与 cublas 库 sgemm 函数效率对比。 2. gpu 并行算法简介 并行算法一:二维block,一个线程程计算一个C元素,缺点:访存次数过多 并行算法二: 优化一: 使用线程块 t 阅读全文
posted @ 2025-04-30 17:00 安洛8 阅读(128) 评论(0) 推荐(0)