学习日记2025.6.4

大模型

Flash Attention

主要针对HBM和SRAM进行的优化,目的是为了减少对HBM的读写,从而提高计算速度,核心技术是softmax分块计算
HBM(容量大但是读写慢),SRAM(容量小但是读写快)
softmax计算容易爆精度,(e的指数增长),所以引入safe softmax
如何分块计算?明天学

强化学习

推荐系统

posted @ 2025-06-05 01:03  咖啡加油条  阅读(14)  评论(0)    收藏  举报