2025 年 3月 30 日随笔档案 - MKY-门可意

2025年3月30日

摘要： 1. 引言：Transformer中的Attention计算与GPU内存瓶颈 Transformer模型在自然语言处理、计算机视觉等领域取得了巨大的成功。其核心机制之一就是自注意力（Self-Attention）。简单来说，Attention机制允许模型在处理序列数据时，为不同的位置赋予不同的权重，阅读全文

posted @ 2025-03-30 11:16 MKY-门可意阅读(2053) 评论(0) 推荐(0)

公告