学习日记2025.6.4

大模型

Flash Attention

主要针对HBM和SRAM进行的优化，目的是为了减少对HBM的读写，从而提高计算速度，核心技术是softmax分块计算
HBM（容量大但是读写慢），SRAM（容量小但是读写快）
softmax计算容易爆精度，（e的指数增长），所以引入safe softmax
如何分块计算？明天学

强化学习

推荐系统

posted @ 2025-06-05 01:03 咖啡加油条阅读(14) 评论(0) 收藏举报

刷新页面返回顶部