为什么要用 Softmax？

在多头注意力机制里，Softmax 公式起着至关重要的作用，它是连接 K、Q、V 计算与最终注意力权重的桥梁。下面以通俗易懂的方式，结合之前的例子，为你讲解它们之间的关系：

Softmax 的本质：把一组 “得分” 转化为 “概率分布”，让所有概率的总和为 1。在注意力里的作用：用 Q 和 K 计算出的相关性得分，经过 Softmax 处理后，就变成了 “应该给每个 V 分配多少注意力” 的权重。

还是以点外卖为例，你提出的问题 Q 是 “好吃又便宜的披萨”，有三家商家的 K（标签）分别是：

Softmax 的计算步骤：

计算指数值：
- 商家 A： $$e^8 \approx 2980.96$$
- 商家 B： $$e^3 \approx 20.09$$
- 商家 C： $$e^6 \approx 403.43$$
计算总和： $$2980.96 + 20.09 + 403.43 \approx 3404.48$$
计算概率（注意力权重）：
- 商家 A： $$2980.96 ÷ 3404.48 ≈ 0.8756$（87.56%）$
- 商家 B： $$20.09 ÷ 3404.48 ≈ 0.0059$（0.59%）$
- 商家 C： $$403.43 ÷ 3404.48 ≈ 0.1185$（11.85%）$

结果解读：经过 Softmax 处理后，得分高的商家 A 获得了绝大部分注意力权重，而得分低的商家 B 几乎被忽略。

在注意力机制中，Softmax 公式是这样的：

\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V

拆解这个公式：

计算 Q 和 K 的点积（相关性得分）：
- $$QK^T$：Q 矩阵和 K 矩阵相乘，得到所有 Q 和 K 之间的相关性得分。$
- $$\sqrt{d_k}$：缩放因子，防止点积结果过大导致梯度消失。$
应用 Softmax 得到注意力权重：
- 把相关性得分通过 Softmax 转换为权重矩阵，权重越大表示越 “值得关注”。
加权聚合 V：
- 用得到的权重矩阵乘以 V 矩阵，按权重聚合每个位置的信息。

在多头注意力里，每个 “头” 都会独立计算自己的 Q、K、V，然后分别应用 Softmax 得到权重，最后把所有头的结果合并。这就好比：

posted @ 2025-06-22 15:55 m516606428 阅读(313) 评论(0) 收藏举报

刷新页面返回顶部

m516606428