摘要: Intro of CSE234 ​#CSE234#​ 1. Workloads 什么是 Model 参数parameters loss optimizer ‍ CSE234关注三部分 Data Images, Text, Audio, Table, Models CNN, RNN, Transfor 阅读全文
posted @ 2025-08-14 12:51 RiJoshin 阅读(8) 评论(0) 推荐(0)
摘要: Flash attention ​#CSE234#​ ‍ 减少IO访存 将输入QKV分块,并保证每个块能够在SRAM (一级缓存)上完成注意力操作,并将结果更新回HBM,从而降低对高带宽内存(HBM)的读写操作。总之,FlashAttention从GPU的内存读写入手,减少了内存读写量,从而实现了2 阅读全文
posted @ 2025-08-14 12:50 RiJoshin 阅读(56) 评论(0) 推荐(0)
摘要: RAG test blog 阅读全文
posted @ 2025-08-14 12:50 RiJoshin 阅读(10) 评论(0) 推荐(0)