摘要: 🔍 MLA vs 传统 Attention:详细计算对比解析 🎯 背景说明 Transformer 中最核心的模块之一是 Multi-Head Self-Attention (MHSA),其计算复杂度随上下文长度增长迅速。而 MLA(Multi-head Latent Attention)通过引 阅读全文
posted @ 2025-06-05 21:57 咖啡加油条 阅读(71) 评论(0) 推荐(0)
摘要: 大模型 Flash Attention 主要针对HBM和SRAM进行的优化,目的是为了减少对HBM的读写,从而提高计算速度,核心技术是softmax分块计算 HBM(容量大但是读写慢),SRAM(容量小但是读写快) softmax计算容易爆精度,(e的指数增长),所以引入safe softmax 如 阅读全文
posted @ 2025-06-05 21:37 咖啡加油条 阅读(19) 评论(0) 推荐(0)
摘要: 大模型 Flash Attention 主要针对HBM和SRAM进行的优化,目的是为了减少对HBM的读写,从而提高计算速度,核心技术是softmax分块计算 HBM(容量大但是读写慢),SRAM(容量小但是读写快) softmax计算容易爆精度,(e的指数增长),所以引入safe softmax 如 阅读全文
posted @ 2025-06-05 01:03 咖啡加油条 阅读(15) 评论(0) 推荐(0)