Triton多层级runner新特性:支持缓存机制,Benchmark 更友好
摘要:复用了Triton的cache和JIT机制,多层级runner支持Python源码输入了,方便调试。另外参照TritonBench添加了2个BenchMark,现在对Bench更友好了。
项目地址:https://github.com/OpenMLIR/triton_runner,项目已从triton_ml_runner升级到了triton_runner,更方便和明确的输入。另外也可以使用如下域名来访问项目,
triton-runner.org
Triton黑魔法:多层级 runner 工具 我介绍了我开发的工具,项目介绍和使用方法可以参考它。最近一周取得的进展是把脱掉的衣服重新穿回来了,开发路线回头复用了Triton的源码,同时为之后的多版本支持提前预热。之后大概会只脱和runtime有关的衣服,尝试去掉些runtime的开销,让triton_runner的runtime完全变成NVIDIA的形状。
一、更新内容
1、TritonBench
2、原生Python支持和cache
二、更新计划(Roadmap)
上文中的易用性提升、benchmark 的2个需求均已完成,现在主要想以下需求。
1、更多Triton版本支持
目前仅支持Triton v3.3.x,Triton v3.4.0发布在即,会进行跟进。另外由于Triton v3.3.x 部分编译Pass在旧卡上会获得负收益,比如更慢or更多的shared 占用, Triton v3.2.0 也会尽力支持。
2、更易用的Debug
我们在使用Triton的过程中,
3、pass stage
提供自定义的编译stage接口,用户可以控制执行哪些Pass。并增加一个编译stage是去掉所有优化的。
4、更多
项目初期难免被bug困扰,欢迎使用者来提issue,我会在空闲时尽量支持。有开发能力的也欢迎来提pull request。
三、相关文章
深度剖析 Triton编译器 MatMul优化(三)—— TMA
深度剖析 Triton编译器 MatMul优化(二)—— MMA
本文来自博客园,作者:暴力都不会的蒟蒻,转载请注明原文链接:https://www.cnblogs.com/BobHuang/p/18996431

浙公网安备 33010602011771号