attention、self-attention、attention is all you need

1 一些概念

  • Query, 当前元素
  • Key,序列中的其他元素
  • Value,求的加权结果和

2 Attention

$$\displaystyle{\displaylines{Attention(Q,K,V)=Softmax(\frac{QK}{\sqrt{d}})V}}$$
 
Screenshot 2025-12-03 at 10.34.16
relevance index 其实就是 softmax的结果, attention weight, 代表每个dimention 应该关注其他key的程度。

这就是自注意力机制的核心思想:通过计算单词间的相关性,重新组合得到包含上下文的新表示。

3 Self-Attention

QKV都变成了自身,在这基础之上需要让QKV参与到最终结果优化的过程中,那么需要对QKV加入权重与全连接网络,让权重参与到计算与更新的过程中来。

Screenshot 2025-12-03 at 13.31.58

X、Z完成某种现行变换,强化需要强化的,弱化需要弱化的,对K、V进行同样的操作。

Screenshot 2025-12-03 at 13.48.47

attention 也能进行叠加,相互提取信息

Screenshot 2025-12-03 at 13.58.23

 3 multi-head attention

 用尽一切办法聚合任何可能的语意信息.  对于self attention, 线性变换曾的权重不变,每次不同的输入,得到的结果会侧重同样的位置权重。输入序列会被划分为若干个“头”,每个头有自己独立的 query, key, value。最后所有的头 concatenate 在一起

Screenshot 2025-12-04 at 17.05.54

 

 

posted @ 2025-12-02 18:53  ylxn  阅读(6)  评论(0)    收藏  举报