1 2 3 4 5 ··· 26 下一页
摘要: 摘要:我开发了一个 Triton 的多层级 runner 工具,支持 ttir、ttgir、llir、ptx、cubin 等多个编译阶段的运行和调试。相比直接维护 Triton 的 Python 源码,这个工具更关注稳定的中间产物(IR 和二进制),让 Triton 的kernel内核调试、部署和研 阅读全文
posted @ 2025-07-12 17:46 暴力都不会的蒟蒻 阅读(169) 评论(0) 推荐(0)
摘要: 深度剖析 Triton编译器 MatMul优化(二)—— MMA 我们介绍了很容易就拿到性能的tl.dot操作,生成的是tcgen05.mma.cta_group::1.kind::tf32和cp.async.cg.shared.global指令,这次我们来看TMA,生成的是cp.async.bul 阅读全文
posted @ 2025-07-01 07:07 暴力都不会的蒟蒻 阅读(216) 评论(0) 推荐(1)
摘要: 本博客原文地址:https://www.cnblogs.com/BobHuang/p/18324040,原文阅读体验更佳。 上一篇文章介绍了MLIR及其Pass的添加,受到了很多朋友的点赞支持,非常感谢。 Triton作者关于其设计的论文发表在MAPL2019,当前项目下首次commit为6d7cf 阅读全文
posted @ 2024-07-25 20:01 暴力都不会的蒟蒻 阅读(5810) 评论(5) 推荐(0)
摘要: 本博客原文地址:https://www.cnblogs.com/BobHuang/p/18249482 笔者在去年写了一篇LLVM Pass的教程,之后从事MLIR的开发近1年了,写点教程回馈下社区。 MLIR(Multi-Level Intermediate Representation,多层中间 阅读全文
posted @ 2024-07-06 10:02 暴力都不会的蒟蒻 阅读(3908) 评论(2) 推荐(1)
摘要: 现在AI框架主要用Pytorch,包括一些常用的库对Pytorch支持都较好,国产AI芯片很多也对AI框架Pytorch进行了支持 一、华为昇腾npu 能够跟上Pytorch的更新,直接和Pytorch兼容,而且有较多人来维护,代码风格不错,之前是通过注入Pytorch预留的的xla搞的接入,Pyt 阅读全文
posted @ 2023-12-06 12:31 暴力都不会的蒟蒻 阅读(2281) 评论(1) 推荐(0)
摘要: MLIR(Multi-Level Intermediate Representation)包含了更多的信息,抽象层级更高。笔者在2023.8开始从事MLIR编译器的开发,当时学习资料不多,自己搜集了些开源项目并在2023.11发表在我的博客里,现在整理下挪到知乎来。 对MLIR不了解可以看下我的这篇 阅读全文
posted @ 2023-11-02 08:34 暴力都不会的蒟蒻 阅读(2884) 评论(2) 推荐(0)
摘要: 摘要:TritonLLM v0.1.0版本已经发布,已经可以pip install安装。gpt-oss-20b在5090上的decode速度从官方发布的90tokens/s来到了136tokens/s。本文记录了影响性能的关键优化方法,同时也总结了我在实践过程中一些未能奏效甚至错误的优化尝试。 项目 阅读全文
posted @ 2025-09-03 06:51 暴力都不会的蒟蒻 阅读(45) 评论(0) 推荐(0)
摘要: 摘要:本文通过向量加算子的实现介绍并实践了tl.arange、tl.load、tl.store和tl.program_id的Triton kernel 原语。 项目地址:OpenMLIR/triton-tutorial,另外有项目缩写的域名tt-tut.top方便访问。 本教程面向没有 GPU 经验 阅读全文
posted @ 2025-08-31 15:05 暴力都不会的蒟蒻 阅读(188) 评论(0) 推荐(0)
摘要: 摘要:目前主流的推理框架如vLLM、TensorRT-LLM、SGLang都在MLsys上对大模型推理进行了优化,能够得到一个非常好的多并发成绩。triton_llm 项目带来了一个全新的llm推理方式,以 Triton Kernel为中心,希望能在batch较小时获得更好的性能。目前在 RTX 5 阅读全文
posted @ 2025-08-15 06:19 暴力都不会的蒟蒻 阅读(116) 评论(0) 推荐(0)
摘要: 摘要:gpt-oss 提供了triton implementation供研究用,你可以使用单卡H100,也就是80 GB显存的Hopper or Blackwell 去跑gpt-oss-120b,其使用了 支持 MXFP4的 Triton MoE 算子来减少显存占用。我用5090 32G显存跑了20 阅读全文
posted @ 2025-08-07 06:22 暴力都不会的蒟蒻 阅读(320) 评论(0) 推荐(0)
摘要: 摘要:复用了Triton的cache和JIT机制,多层级runner支持Python源码输入了,方便调试。另外参照TritonBench添加了2个BenchMark,现在对Bench更友好了。 项目地址:https://github.com/OpenMLIR/triton_runner,项目已从tr 阅读全文
posted @ 2025-07-21 19:38 暴力都不会的蒟蒻 阅读(52) 评论(0) 推荐(0)
摘要: 摘要:很简单的一个黑魔法,只要在你的函数名前加上cutlass_,假装是CUTLASS库,有可能获得一定的性能提升。 我发现这个问题来源于Triton这笔commitade3d49 这不是在开玩笑,代码里真有。在FP8提升了 150 TFLOPS 那我们根据这个commit去build Triton 阅读全文
posted @ 2025-07-10 22:25 暴力都不会的蒟蒻 阅读(39) 评论(0) 推荐(0)
摘要: 摘要:绕过Triton Pass pipeline 来运行 cubin 二进制程序 项目地址:OpenMLIR/Triton-ML-Runner 你是否也在为Triton只能从Python到cubin再执行而苦恼,你是否修改了其中的IR但需要修改Triton的源码而丧气,你是否拿到了高版本Trito 阅读全文
posted @ 2025-07-08 07:01 暴力都不会的蒟蒻 阅读(57) 评论(0) 推荐(0)
摘要: 项目地址:OpenMLIR/triton-spirv 本项目于2025.7.6在NVIDIA显卡上使用OpenCL跑通了矩阵乘matrix-multiplication.py,并对上了答案。 一、前言 1、项目进展 本项目于上个月(2025.6.7)在NVIDIA显卡上使用OpenCL跑通了向量加, 阅读全文
posted @ 2025-07-06 19:54 暴力都不会的蒟蒻 阅读(36) 评论(0) 推荐(0)
摘要: 深度剖析 Triton编译器 MatMul优化(一) 我们介绍了native矩阵乘的优化,本章来分析很容易就拿到性能的tl.dot操作。 上来首先性能对比,Triton native kernel vs Triton with dot kernel。这个加速比是3.68x,相较native的CUDA 阅读全文
posted @ 2025-06-29 13:57 暴力都不会的蒟蒻 阅读(161) 评论(0) 推荐(0)
摘要: 本文分析了native(不做分块)的Triton Matmul矩阵乘在 NVIDIA B200的编译流程,从Python->TTIR->TTGIR->LLVM IR->PTX。最近会出一个系列分析Triton对于矩阵乘的优化以及Blackwell新特性的支持情况。首先先看性能,用上autotune相 阅读全文
posted @ 2025-06-27 06:50 暴力都不会的蒟蒻 阅读(245) 评论(0) 推荐(0)
摘要: 我最近3个月都在研究Python DSL,在此记录下我的一些想法。目前还在学习中,若理解有偏差,烦请指正。 DSL 即 Domain Specific Language,是指为特定领域(domain)设计的专用语言,广为人知的包含 HTML、SQL和正则表达式。本文讨论的内容更准确的名词是eDSL, 阅读全文
posted @ 2025-06-20 22:31 暴力都不会的蒟蒻 阅读(1017) 评论(0) 推荐(1)
摘要: CuTe DSL 是以CuTe抽象为中心的Python DSL,Triton DSL是以BLOCK tile为中心的Python DSL。CuTe DSL写起来更像CUDA,Triton DSL要更Pythonic,上层的接口也很Python。英伟达会推出 cuTile 来和 Triton竞争。 一 阅读全文
posted @ 2025-06-19 05:19 暴力都不会的蒟蒻 阅读(445) 评论(3) 推荐(0)
摘要: 这个Bug为IR在transform(转换)过程中出现了tt.fp_to_fp,然后在lower(降级)时报错Unsupported conversion from f16 to f16,具体issue在Unsupported conversion from f16 to f16 #6698。这个B 阅读全文
posted @ 2025-06-13 06:07 暴力都不会的蒟蒻 阅读(167) 评论(0) 推荐(0)
摘要: 本博客原文地址:https://www.cnblogs.com/BobHuang/p/18917000,原文体验更佳 项目地址:OpenMLIR/triton-spirv 本项目于2025.6.7在NVIDIA显卡上使用OpenCL跑通了向量加vector-add.py,并对上了答案。 一、前言 1 阅读全文
posted @ 2025-06-07 19:55 暴力都不会的蒟蒻 阅读(121) 评论(1) 推荐(0)
摘要: 本博客原文地址:https://www.cnblogs.com/BobHuang/p/18916737,原文体验更佳 项目地址:OpenMLIR/triton-spirv 上一篇Triton SPIR-V 后端开发:新增Pass 我们新增了TritonToLinalg的Pass,Triton是Pyt 阅读全文
posted @ 2025-06-07 15:37 暴力都不会的蒟蒻 阅读(25) 评论(0) 推荐(0)
摘要: 本博客原文地址:https://www.cnblogs.com/BobHuang/p/18916629,原文体验更佳 关于MLIR的介绍和Pass的书写我在从零开始教你写一个MLIR Pass 中写得更充实和详细,本文做为OpenMLIR/triton-spirv的开发文档,目的是方便新手上手。 本 阅读全文
posted @ 2025-06-07 13:43 暴力都不会的蒟蒻 阅读(97) 评论(0) 推荐(0)
摘要: 本博客原文地址:https://www.cnblogs.com/BobHuang/p/18890009 Chris Lattner最近AI民主化的文章写得很爽,并在Modular’s bet to break out of the Matrix 强烈推荐了他在做的MOJO🔥。 学习MOJO可以看官 阅读全文
posted @ 2025-05-22 05:48 暴力都不会的蒟蒻 阅读(210) 评论(0) 推荐(0)
摘要: 5.18更 项目改为基于upstreammain分支开发。原来为了稳定在release/3.3.x分支开发,但是fork项目主页还是会和main对比的,目前改动还不多,直接切过来了。 本博客原文地址:https://www.cnblogs.com/BobHuang/p/18881029,原文体验更佳 阅读全文
posted @ 2025-05-17 10:34 暴力都不会的蒟蒻 阅读(114) 评论(0) 推荐(0)
1 2 3 4 5 ··· 26 下一页