Triton多层级runner新特性：支持缓存机制，Benchmark 更友好

摘要：复用了Triton的cache和JIT机制，多层级runner支持Python源码输入了，方便调试。另外参照TritonBench添加了2个BenchMark，现在对Bench更友好了。

项目地址：https://github.com/OpenMLIR/triton_runner，项目已从triton_ml_runner升级到了triton_runner，更方便和明确的输入。另外也可以使用如下域名来访问项目，
triton-runner.org

Triton黑魔法：多层级 runner 工具我介绍了我开发的工具，项目介绍和使用方法可以参考它。最近一周取得的进展是把脱掉的衣服重新穿回来了，开发路线回头复用了Triton的源码，同时为之后的多版本支持提前预热。之后大概会只脱和runtime有关的衣服，尝试去掉些runtime的开销，让triton_runner的runtime完全变成NVIDIA的形状。

一、更新内容

1、TritonBench

2、原生Python支持和cache

二、更新计划（Roadmap）

上文中的易用性提升、benchmark 的2个需求均已完成，现在主要想以下需求。

1、更多Triton版本支持

目前仅支持Triton v3.3.x，Triton v3.4.0发布在即，会进行跟进。另外由于Triton v3.3.x 部分编译Pass在旧卡上会获得负收益，比如更慢or更多的shared 占用, Triton v3.2.0 也会尽力支持。

2、更易用的Debug

我们在使用Triton的过程中，

3、pass stage

提供自定义的编译stage接口，用户可以控制执行哪些Pass。并增加一个编译stage是去掉所有优化的。

4、更多

项目初期难免被bug困扰，欢迎使用者来提issue，我会在空闲时尽量支持。有开发能力的也欢迎来提pull request。

三、相关文章

Triton黑魔法：多层级 runner 工具

Triton黑魔法：cubin runner

深度剖析 Triton编译器 MatMul优化（三）—— TMA

深度剖析 Triton编译器 MatMul优化（二）—— MMA

深度剖析 Triton编译器 MatMul优化（一）—— FMA

浅析 Triton 执行流程

posted @ 2025-07-21 19:38 暴力都不会的蒟蒻阅读(51) 评论(0) 收藏举报

刷新页面返回顶部