[LLM] Attention to Transformer

本篇来自如下。不同的人对transformer的讲解角度不同，多听听，在多角度认知的前提下，方能真正理解transformer。

水论文的程序猿

LiMu的视频教程
Shusen Wang
全网最详细Transformer中的mask操作及代码详解【推荐】【系列10-4-3】，学习材料【代码】

Nadaraya-Watson 核回归

非参化

不用学参数。

注意力汇聚：Nadaraya-Watson 核回归

Nadaraya-Watson核回归的注意力汇聚：对训练数据的输出加权平均。

在 (10.2.6) 中，可以理解为：x于x_i越接近，那么 as a role of weight for y_i，就应当越大。

Output的计算步骤如下。

注意力分数：query与key的相似度；

注意力权重：对以上分数做softmax之后的结果。

将变量拓展到高维向量，便得到了注意力池化层。

参数化

参数化的注意力机制，例如增加一个可学习的 w。在上图中，也就是“如何设计a函数（Attention scoring function）的问题”。

现在我们通过引入W来加一个单隐藏层。

从机器翻译说起

Seq2Seq句子翻译

RNN模型与NLP应用(7/9)：机器翻译与Seq2Seq模型

缺点：压缩在状态里，但长句子容易“被遗忘”。所以，Attention机制就是解药～

我们希望在左边的 encoder 中的“我”的权重或相关的隐变量等能更多地贡献于右边 decoder 中的 “I”。

所以，

通过 “上一个词” as query 来推断下一个词。

左边，只有最后一个h_m有价值，前面的则放弃。（但会导致遗忘问题）

右边，获得h_m作为输入后，先得到更新后的状态s₁，得到概率p₁，抽样得到z₁。

注意力机制

RNN模型与NLP应用(8/9)：Attention (注意力机制)

引入c₀

为了改进h_m的问题，引入了一个与前面所有隐状态都相关的c₀。这个align函数可以独立设计。

课间思考：c 有点类似 f(x)，是个output。h_i 则有点类比x_i，能与s₀做比较得到相似度；同时也是y_i。

预测s₁

可见，有了c₁后，也有了新的计算s₁的方式。

下图中，之前没有c0，也就是s1不会有所有序列的信息，但引入c0后，新的 s1就会考虑序列所有项的信息！（注意理解）

之后便是 “这一轮” 最后的c₁的计算。在计算前先通过s₁以及相关性计算得到 alpha。

[paper] Neural Machine Translation by Jointly Learning to Align and Translate, 2015

神奇的C₀保留了encoder的全部状态，这是关键。

自注意力机制

RNN模型与NLP应用(9/9)：Self-Attention (自注意力机制)

计算h。x₂代表了当前的一个x。下图中，c₁在代表了序列之前的信息。一起得到了一个新的隐状态h₂。

计算alpha。如下的h₂ 会与自己也比较一次得到 alpha₂。

c 作为 output的结算过程如下。

[paper] Long Short-Term Memory-Networks for Machine Reading, 2016

Self-Attention则利用了Attention机制，计算每个单词与其他所有单词之间的关联，

如下图，序列中包含了 key, value, and query。

位置编码

设计为了sin cos的形式，支持了位置信息。

Ref: 1401 位置编码公式详细理解补充

变形金刚 - Transformer

Transformer模型(1/2): 剥离RNN，保留Attention

如何剥离掉 RNN? 并一步步理解下图的由来。

[1]

RNN 有个 h 作为 x_i的角色。下图是直接由 x 导出了k and v。

[2]

q 与 k的意义比较得到权重，如下。

Output: c 通过与v相乘再加得到。

可见，此时已没有了RNN的痕迹！貌似需要加入 "位置编码"。

最终的 Output 是个 C = [c1, c2, ...] 如下图。也就是 “一层” attention layer的 output。

右边的c 得到一个抽样的x'，类似RNN 一个一个字的翻译出来。

[3]

再聊聊 "自注意力机制"。

可见，因为没有 decoder，q也挤到了“左边”。当前的q要与所有的k计算得到权重 alpha。

然后，alpha 与 v 计算得到 output c。

2017年，发现 attention 足以，而 RNN 是没有必要的。于是就出了这篇论文： Attention is All You Need.

Transformer模型(2/2): 从Attention层到Transformer网络

那么，现在开始搭建深度神经网络，也就是 Transformer Block。

单头自注意力层与多头自注意力层

变为多头，各头参数不共享，如下。

为何多头？13 Transformer的多头注意力，Multi-Head Self-Attention（从空间角度解释为什么做多头）【作者声音听起来，比较通透】

具有了更好的 “特征表示”。下图的输出例如叫做 Z。是对X的新的表征（词向量），拥有了句法特征和语义特征。

为何用多头？

多头注意力通过利用同一查询的多个不同版本并行实现多个注意力模块来工作。

其思想是使用不同的权重矩阵对查询进行线性变换得到多个查询。每个新形成的查询本质上都需要不同类型的相关信息，从而允许注意模型在上下文向量计算中引入更多信息。

多头流程图

其实就是安排了例如8套W，得到八个Z（也就是李沐说的）

编码器的 Block

Goto: Stacked Self-Attention Layers

Stacked Self-Attention Layers，可以这么搭建（其中的Dense是一个，可理解为m次back-prop来更新这个dense）

我们定义：Block 是 Self-Attention Layers + Dense

堆叠以构成一个深度网络就可表示为如下：

Transformer，你可以先记住这一句话：Transformer 简单点看其实就是 self-attention 模型的叠加。

解码器的 Block

Stacked Attention Layer，左边的部分可以接收 encoder's output，形成一次“交互”。

根据以上，搭建如下一个 Transformer结构的 Encoder Network。左边 Encoder; 右边 Decoder。

可见，实际上，会有多次 “交互”。

Here’s a quick summary of the previous and following articles in the series. My goal throughout will be to understand not just how something works but why it works that way.

1. Overview of functionality (How Transformers are used, and why they are better than RNNs. Components of the architecture, and behavior during Training and Inference)
2. How it works(Internal operation end-to-end. How data flows and what computations are performed, including matrix representations)
3. Multi-head Attention — this article (Inner workings of the Attention module throughout the Transformer)
4. Why Attention Boosts Performance(Not just what Attention does but why it works so well. How does Attention capture the relationships between words in a sentence)

实战派

BERT (预训练Transformer模型)

18年提出，19年发表。

任务一：预测被遮挡的单词。

任务二：预测下一个句子。

BERT就是两个任务的结合。

对于输入，有一些自己的特点。

Vision Transformer (ViT) 用于图片分类

2021 发表。

Positional encoding.

搭积木，随便搭。

For more details, please check [ViT] ViT to Swin Transformer

posted @ 2021-12-02 11:08 郝壹贰叁阅读(159) 评论(0) 收藏举报

刷新页面返回顶部

机器学习水很深

We all have two lives. The second one starts when we realize that we only have one. --- Tom Hiddleston