2023 年 8月 21 日随笔档案 - deephub

2023年8月21日

摘要：这篇文章的目的是详细的解释Flash Attention，为什么要解释FlashAttention呢？因为FlashAttention 是一种重新排序注意力计算的算法，它无需任何近似即可加速注意力计算并减少内存占用。所以作为目前LLM的模型加速它是一个非常好的解决方案，本文介绍经典的V1版本，最新的阅读全文

posted @ 2023-08-21 10:29 deephub 阅读(912) 评论(1) 推荐(0)

deephub

overfit深度学习

公告