摘要:        
CUDA三类__shfl函数总结 内容 1. __shfl_xor_sync 蝴蝶交换 函数签名 T __shfl_xor_sync( unsigned mask, // 参与线程的位掩码 (通常0xffffffff) T value, // 要交换的值 (int/float) int lane_m    阅读全文
posted @ 2025-03-25 23:43
Gold_stein
阅读(354)
评论(0)
推荐(0)
        
            
        
        
摘要:        
Flash Attention & Paged Attention 内容 FlashAttention 和 PagedAttention 是两种针对 Transformer 注意力机制的显存优化技术,分别解决不同维度的性能瓶颈。这里用技术对比的方式帮你快速理解: 1. FlashAttention(    阅读全文
posted @ 2025-03-25 15:01
Gold_stein
阅读(787)
评论(0)
推荐(0)
        

 
         浙公网安备 33010602011771号
浙公网安备 33010602011771号