2025 年 9月 24 日随笔档案 - deephub

2025年9月24日

摘要：注意力机制听起来很玄乎，但我们可以把它看作一个软k-NN算法。查询向量问："谁跟我最像？"，softmax投票，相似的邻居们返回一个加权平均值。这就是注意力头的另外一种解释：一个可微分的软k-NN：计算相似度 → softmax转换为权重 → 对邻居值求加权平均。通过 1/sqrt(d) 缩放防阅读全文

posted @ 2025-09-24 20:35 deephub 阅读(13) 评论(0) 推荐(0)

deephub

overfit深度学习

公告