摘要: Diffusion model DDPM by blog[1] paper:DDPM[2] ‍ ​#10423#​ Diffusion Model by 10-423 ‍ 基础网络结构:U-Net 及其应用 输入输出维度相同 U-Net 的核心架构 收缩路径(Contracting Path) : 阅读全文
posted @ 2025-08-15 19:24 RiJoshin 阅读(53) 评论(0) 推荐(0)
摘要: Intro of CSE234 ​#CSE234#​ 1. Workloads 什么是 Model 参数parameters loss optimizer ‍ CSE234关注三部分 Data Images, Text, Audio, Table, Models CNN, RNN, Transfor 阅读全文
posted @ 2025-08-14 12:51 RiJoshin 阅读(8) 评论(0) 推荐(0)
摘要: Flash attention ​#CSE234#​ ‍ 减少IO访存 将输入QKV分块,并保证每个块能够在SRAM (一级缓存)上完成注意力操作,并将结果更新回HBM,从而降低对高带宽内存(HBM)的读写操作。总之,FlashAttention从GPU的内存读写入手,减少了内存读写量,从而实现了2 阅读全文
posted @ 2025-08-14 12:50 RiJoshin 阅读(56) 评论(0) 推荐(0)
摘要: RAG test blog 阅读全文
posted @ 2025-08-14 12:50 RiJoshin 阅读(10) 评论(0) 推荐(0)