Triton多层级runner新特性:支持缓存机制,Benchmark 更友好

摘要:复用了Triton的cache和JIT机制,多层级runner支持Python源码输入了,方便调试。另外参照TritonBench添加了2个BenchMark,现在对Bench更友好了。

项目地址:https://github.com/OpenMLIR/triton_runner,项目已从triton_ml_runner升级到了triton_runner,更方便和明确的输入。另外也可以使用如下域名来访问项目,
triton-runner.org

Triton黑魔法:多层级 runner 工具 我介绍了我开发的工具,项目介绍和使用方法可以参考它。最近一周取得的进展是把脱掉的衣服重新穿回来了,开发路线回头复用了Triton的源码,同时为之后的多版本支持提前预热。之后大概会只脱和runtime有关的衣服,尝试去掉些runtime的开销,让triton_runner的runtime完全变成NVIDIA的形状。

一、更新内容

1、TritonBench

2、原生Python支持和cache

二、更新计划(Roadmap)

上文中的易用性提升、benchmark 的2个需求均已完成,现在主要想以下需求。

1、更多Triton版本支持

目前仅支持Triton v3.3.x,Triton v3.4.0发布在即,会进行跟进。另外由于Triton v3.3.x 部分编译Pass在旧卡上会获得负收益,比如更慢or更多的shared 占用, Triton v3.2.0 也会尽力支持。

2、更易用的Debug

我们在使用Triton的过程中,

3、pass stage

提供自定义的编译stage接口,用户可以控制执行哪些Pass。并增加一个编译stage是去掉所有优化的。

4、更多

项目初期难免被bug困扰,欢迎使用者来提issue,我会在空闲时尽量支持。有开发能力的也欢迎来提pull request。

三、相关文章

Triton黑魔法:多层级 runner 工具

Triton黑魔法:cubin runner

深度剖析 Triton编译器 MatMul优化(三)—— TMA

深度剖析 Triton编译器 MatMul优化(二)—— MMA

深度剖析 Triton编译器 MatMul优化(一)—— FMA

浅析 Triton 执行流程

posted @ 2025-07-21 19:38  暴力都不会的蒟蒻  阅读(51)  评论(0)    收藏  举报