自注意力的QK乘完后需要归一化吗?

自注意力中 QK 乘完后需要归一化。

在自注意力机制中，计算 Query 与 Key 的点积（即 QK 相乘）后，通常会进行缩放和归一化处理。具体来说，会先将 QK 的点积结果除以一个缩放因子

\(\sqrt{d_k}\)，其中\(d_k\)为 Key 向量的维度，这是为了防止点积结果过大，导致在后续 Softmax 操作中出现数值不稳定的问题，如梯度爆炸或消失。然后，再对缩放后的结果使用 Softmax 函数进行归一化，将其转换为 0-1 之间的概率值，这些概率值表示了每个位置的注意力权重。

posted @ 2025-07-16 15:29 m516606428 阅读(18) 评论(0) 收藏举报

刷新页面返回顶部

m516606428