摘要: 1. TensorCore 简介: 硬件层面支持半精度浮点矩阵乘法,与昇腾NPU的 cube 核类似,最小只能计算规定尺寸的矩阵乘法。 wmma API 封装在 nvcuda 命名空间 2. naive : 一个block 1 个warp,wmmaTile 16*16 点击查看代码 //naive 阅读全文
posted @ 2025-09-16 17:21 安洛8 阅读(18) 评论(0) 推荐(0)