摘要: 本文分析了native(不做分块)的Triton Matmul矩阵乘在 NVIDIA B200的编译流程,从Python->TTIR->TTGIR->LLVM IR->PTX。最近会出一个系列分析Triton对于矩阵乘的优化以及Blackwell新特性的支持情况。首先先看性能,用上autotune相 阅读全文
posted @ 2025-06-27 06:50 暴力都不会的蒟蒻 阅读(244) 评论(0) 推荐(0)