摘要: 注意力机制听起来很玄乎,但我们可以把它看作一个软k-NN算法。查询向量问:"谁跟我最像?",softmax投票,相似的邻居们返回一个加权平均值。这就是注意力头的另外一种解释: 一个可微分的软k-NN:计算相似度 → softmax转换为权重 → 对邻居值求加权平均。 通过 1/sqrt(d) 缩放防 阅读全文
posted @ 2025-09-24 20:35 deephub 阅读(13) 评论(0) 推荐(0)