随笔档案「2025年9月17日」：FlashAttention v1,v2, v3的优化 ... - 有何m不可

2025年9月17日

摘要： http://www.zh0ngtian.tech/posts/f6279a66.html FlashAttention 2 在 FlashAttention 的基础上进行了进一步的性能优化，其计算结果仍然是严格对齐的。本文仅包含对 FlashAttention 2 在前向推理上的优化，不包含反向传阅读全文

posted @ 2025-09-17 19:30 有何m不可阅读(288) 评论(0) 推荐(0)

Flash Attention是怎么做到又快又省显存的？

摘要：转自：https://zhuanlan.zhihu.com/p/721973285 Flash Attention 并没有减少 Attention 的计算量，也不影响精度，但是却比标准的Attention运算快 2~4 倍的运行速度，减少了 5~20 倍的内存使用量。究竟是怎么实现的呢？ Atten 阅读全文

posted @ 2025-09-17 13:31 有何m不可阅读(190) 评论(0) 推荐(0)

gongzb

公告