自注意力的QK乘完后需要归一化吗?

自注意力中 QK 乘完后需要归一化。

在自注意力机制中,计算 Query 与 Key 的点积(即 QK 相乘)后,通常会进行缩放和归一化处理。具体来说,会先将 QK 的点积结果除以一个缩放因子\(\sqrt{d_k}\),其中\(d_k\)为 Key 向量的维度,这是为了防止点积结果过大,导致在后续 Softmax 操作中出现数值不稳定的问题,如梯度爆炸或消失。然后,再对缩放后的结果使用 Softmax 函数进行归一化,将其转换为 0-1 之间的概率值,这些概率值表示了每个位置的注意力权重。
posted @ 2025-07-16 15:29  m516606428  阅读(18)  评论(0)    收藏  举报