这是 BERT 模型里 Self - Attention（自注意力）机制的计算流程图，理解它就能懂 Transformer 核心逻辑！用大白话拆解每一步：

目标：算 “当前词和其他词的关联度”（比如 “中国” 和 “你好” 关联有多强）。
操作：
1. Q（L×h ）和 K^T（h×L ，K 的转置）相乘，得到 L×L 的矩阵（因为 L×h × h×L = L×L ）。
  - 这个矩阵里的每个值，就是 “当前词的 Query” 和 “其他词的 Key” 的匹配分（比如第 3 行第 2 列，就是 “中国” 和 “你好” 的匹配度）。
2. 除以 √d_k（d_k 是 K 的维度，这里就是 h ）：防止数值太大，Softmax 后梯度消失（简单说，让分数更合理，别极端）。

Softmax：把 L×L 的注意力分数，转成概率分布（每行和为 1 ，比如 “中国” 对 “你好” 的注意力概率是 0.6 ，对 “你” 是 0.2 ）。
加权求和：用 Softmax 后的概率，对 V（L×h ）做加权平均。
- 比如 “中国” 要算最终向量，就用 “你好” 的 V 乘以 0.6 ，加上 “你” 的 V 乘以 0.2 … 得到一个 h 维的向量 Z 。
- 所有词都这么算，最终得到 L×h 的输出（和输入 X 形状一样，但每个词的向量融入了 “关注谁” 的信息）。

一句话：让每个词 “看” 到句子里其他词的重要性，把这些重要信息融合到自己的向量里。

比如 “中国” 这个词，通过 Self - Attention 发现 “你好” 和自己关联大，就把 “你好” 的语义多融合一点，最终的向量就更准确啦！

这样整个流程就串起来了：输入词向量 → 生成 Q/K/V → 算注意力分数 → 加权求和得到新向量。这就是 BERT 能理解 “上下文关系” 的核心秘密～

posted @ 2025-06-22 15:47 m516606428 阅读(118) 评论(0) 收藏举报

刷新页面返回顶部

m516606428