摘要: http://www.zh0ngtian.tech/posts/f6279a66.html FlashAttention 2 在 FlashAttention 的基础上进行了进一步的性能优化,其计算结果仍然是严格对齐的。本文仅包含对 FlashAttention 2 在前向推理上的优化,不包含反向传 阅读全文
posted @ 2025-09-17 19:30 有何m不可 阅读(90) 评论(0) 推荐(0)
摘要: 转自:https://zhuanlan.zhihu.com/p/721973285 Flash Attention 并没有减少 Attention 的计算量,也不影响精度,但是却比标准的Attention运算快 2~4 倍的运行速度,减少了 5~20 倍的内存使用量。究竟是怎么实现的呢? Atten 阅读全文
posted @ 2025-09-17 13:31 有何m不可 阅读(131) 评论(0) 推荐(0)