会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
m516606428
博客园
首页
新随笔
联系
订阅
管理
自注意力的QK乘完后需要归一化吗?
自注意力中 QK 乘完后需要归一化。
在自注意力机制中,计算 Query 与 Key 的点积(即 QK 相乘)后,通常会进行缩放和归一化处理。具体来说,会先将 QK 的点积结果除以一个缩放因子
\(\sqrt{d_k}\),其中
\(d_k\)为 Key 向量的维度,这是为了防止点积结果过大,导致在后续 Softmax 操作中出现数值不稳定的问题,如梯度爆炸或消失。然后,再对缩放后的结果使用 Softmax 函数进行归一化,将其转换为 0-1 之间的概率值,这些概率值表示了每个位置的注意力权重。
posted @
2025-07-16 15:29
m516606428
阅读(
18
) 评论(
0
)
收藏
举报
刷新页面
返回顶部
公告