咖啡加油条 - 博客园

摘要： 🔍 MLA vs 传统 Attention：详细计算对比解析 🎯 背景说明 Transformer 中最核心的模块之一是 Multi-Head Self-Attention (MHSA)，其计算复杂度随上下文长度增长迅速。而 MLA（Multi-head Latent Attention）通过引阅读全文

摘要：大模型 Flash Attention 主要针对HBM和SRAM进行的优化，目的是为了减少对HBM的读写，从而提高计算速度，核心技术是softmax分块计算 HBM（容量大但是读写慢），SRAM（容量小但是读写快） softmax计算容易爆精度，（e的指数增长），所以引入safe softmax 如阅读全文

xuxy

公告