摘要:
🔍 MLA vs 传统 Attention:详细计算对比解析 🎯 背景说明 Transformer 中最核心的模块之一是 Multi-Head Self-Attention (MHSA),其计算复杂度随上下文长度增长迅速。而 MLA(Multi-head Latent Attention)通过引 阅读全文
posted @ 2025-06-05 21:57
咖啡加油条
阅读(71)
评论(0)
推荐(0)
摘要:
大模型 Flash Attention 主要针对HBM和SRAM进行的优化,目的是为了减少对HBM的读写,从而提高计算速度,核心技术是softmax分块计算 HBM(容量大但是读写慢),SRAM(容量小但是读写快) softmax计算容易爆精度,(e的指数增长),所以引入safe softmax 如 阅读全文
posted @ 2025-06-05 21:37
咖啡加油条
阅读(19)
评论(0)
推荐(0)
摘要:
大模型 Flash Attention 主要针对HBM和SRAM进行的优化,目的是为了减少对HBM的读写,从而提高计算速度,核心技术是softmax分块计算 HBM(容量大但是读写慢),SRAM(容量小但是读写快) softmax计算容易爆精度,(e的指数增长),所以引入safe softmax 如 阅读全文
posted @ 2025-06-05 01:03
咖啡加油条
阅读(15)
评论(0)
推荐(0)

浙公网安备 33010602011771号