2025 年 6月 27 日随笔档案 - 暴力都不会的蒟蒻

2025年6月27日

摘要：本文分析了native(不做分块)的Triton Matmul矩阵乘在 NVIDIA B200的编译流程，从Python->TTIR->TTGIR->LLVM IR->PTX。最近会出一个系列分析Triton对于矩阵乘的优化以及Blackwell新特性的支持情况。首先先看性能，用上autotune相阅读全文

posted @ 2025-06-27 06:50 暴力都不会的蒟蒻阅读(327) 评论(0) 推荐(0)

BobHuang

公告