摘要: 摘要:很简单的一个黑魔法,只要在你的函数名前加上cutlass_,假装是CUTLASS库,有可能获得一定的性能提升。 我发现这个问题来源于Triton这笔commitade3d49 这不是在开玩笑,代码里真有。在FP8提升了 150 TFLOPS 那我们根据这个commit去build Triton 阅读全文
posted @ 2025-07-10 22:25 暴力都不会的蒟蒻 阅读(39) 评论(0) 推荐(0)