摘要: 前言 对于attention操作,其计算复杂度随着序列长度的增加呈平方倍的增长。因此,出现了诸多尝试将计算复杂度降低为\(O(n)\)的注意力机制。然而,这些方法忽略了计算时的IO复杂度的影响,频繁的内存交换也在长序列计算attention产生了巨大时间延迟。flash attention通过减少内 阅读全文
posted @ 2025-09-19 23:56 久逺61 阅读(30) 评论(0) 推荐(0)