摘要: 1. 引言:Transformer中的Attention计算与GPU内存瓶颈 Transformer模型在自然语言处理、计算机视觉等领域取得了巨大的成功。其核心机制之一就是自注意力(Self-Attention)。简单来说,Attention机制允许模型在处理序列数据时,为不同的位置赋予不同的权重, 阅读全文
posted @ 2025-03-30 11:16 MKY-门可意 阅读(1382) 评论(0) 推荐(0)