摘要:
Intro of CSE234 #CSE234# 1. Workloads 什么是 Model 参数parameters loss optimizer CSE234关注三部分 Data Images, Text, Audio, Table, Models CNN, RNN, Transfor 阅读全文
posted @ 2025-08-14 12:51
RiJoshin
阅读(8)
评论(0)
推荐(0)
摘要:
Flash attention #CSE234# 减少IO访存 将输入QKV分块,并保证每个块能够在SRAM (一级缓存)上完成注意力操作,并将结果更新回HBM,从而降低对高带宽内存(HBM)的读写操作。总之,FlashAttention从GPU的内存读写入手,减少了内存读写量,从而实现了2 阅读全文
posted @ 2025-08-14 12:50
RiJoshin
阅读(56)
评论(0)
推荐(0)
摘要:
RAG test blog 阅读全文
posted @ 2025-08-14 12:50
RiJoshin
阅读(10)
评论(0)
推荐(0)

浙公网安备 33010602011771号