学习日记2025.6.4
大模型
Flash Attention
主要针对HBM和SRAM进行的优化,目的是为了减少对HBM的读写,从而提高计算速度,核心技术是softmax分块计算
HBM(容量大但是读写慢),SRAM(容量小但是读写快)
softmax计算容易爆精度,(e的指数增长),所以引入safe softmax
如何分块计算?明天学
主要针对HBM和SRAM进行的优化,目的是为了减少对HBM的读写,从而提高计算速度,核心技术是softmax分块计算
HBM(容量大但是读写慢),SRAM(容量小但是读写快)
softmax计算容易爆精度,(e的指数增长),所以引入safe softmax
如何分块计算?明天学