从另一个视角看Transformer：注意力机制就是可微分的k-NN算法

注意力机制听起来很玄乎，但我们可以把它看作一个软k-NN算法。查询向量问："谁跟我最像？"，softmax投票，相似的邻居们返回一个加权平均值。这就是注意力头的另外一种解释：一个可微分的软k-NN：计算相似度 → softmax转换为权重 → 对邻居值求加权平均。

通过

缩放防止softmax在高维时饱和，掩码决定哪些位置可以互相"看见"（处理因果关系、填充等问题）。

想象有个查询向量 𝐪 在问："哪些token跟我相似？"

接下来就是三步走：

这就是注意力的另外一种解释：考虑序列顺序的软邻居平均算法。

posted @ 2025-09-24 20:35 deephub 阅读(23) 评论(0) 收藏举报

刷新页面返回顶部

deephub