2025 年 6月 29 日随笔档案 - 暴力都不会的蒟蒻

2025年6月29日

摘要：深度剖析 Triton编译器 MatMul优化（一）我们介绍了native矩阵乘的优化，本章来分析很容易就拿到性能的tl.dot操作。上来首先性能对比，Triton native kernel vs Triton with dot kernel。这个加速比是3.68x，相较native的CUDA 阅读全文

posted @ 2025-06-29 13:57 暴力都不会的蒟蒻阅读(232) 评论(0) 推荐(0)

BobHuang

公告