会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
BobHuang
首页
新随笔
联系
管理
2025年7月1日
深度剖析 Triton编译器 MatMul优化(三)—— TMA
摘要: 深度剖析 Triton编译器 MatMul优化(二)—— MMA 我们介绍了很容易就拿到性能的tl.dot操作,生成的是tcgen05.mma.cta_group::1.kind::tf32和cp.async.cg.shared.global指令,这次我们来看TMA,生成的是cp.async.bul
阅读全文
posted @ 2025-07-01 07:07 暴力都不会的蒟蒻
阅读(216)
评论(0)
推荐(1)
公告