机器学习课程笔记 4

上一篇 -> 机器学习课程笔记 3。

0. 前情提要

0.1 Attention

  • 注意力机制
    image

0.2 Self-Attention

  • Q、K、V 同源
    image

0.3 Masked Self-Attention

  • 为了弥补Self-Attention的缺点
    前一序列输入并未得知后续有什么,所以为了更贴近实际,将后续的信息遮挡起来,只计算已知的信息的关联性。
    image
    image
    image
  • 逐一生成,逐一计算,最后给出。

1. Transformer

  • Encoder-Decoder框架(seq2seq)
    image
  • 简化来看
    image
  • 粒度再细点
    image
  • 粒度再细点
    image

1.1 Encoder 编码器

  • 简单理解
    从输入中抓取有用的信息,将其组合成解码器可以处理的信息。
  • Encoder 由小 Encoder 叠加(transformer 有 N 个), 逐步加强对信息的抓取和组合。
    image
  • Self-Attention
  • Feed Forward
  • 每个子层都还有一个 残差网络 + 归一化
    image
  • \(z_1\)为例
    • 此时其为\(x_1\)变为词向量获得语义信息、通过位置编码获得位置信息、通过自注意力机制获得句法信息得到新形态 \(z_1\)
    • 先利用残差网络 (出处 ResNet)加和(Add), 可以避免梯度消失, \(z_1 = x_1 + z_1\)梯度消失介绍
    • 其次利用 Layer Normalization(LN), 对每个输入特征做归一化处理, \(z_1 = LN(z_1)\)归一化层
    • Feed Forward利用 \(ReLU\) 激活函数做一次非线性变换(前面都是线性变换)得到 \(r_1\)
  • 总体来说就是让数据的表征更加优秀。

1.2 Decoder 解码器

  • 简单理解
    从编码器信息中抓取有用的信息,结合输入的目标生成可用结果。
  • Decoder 由小 Decoder 叠加(transformer 有 N 个),逐步加强对信息的抓取和生成。
    image
    image
  • Self-Attention
    此处的加入了 Mask,为什么?原因?
    • 简单比喻,“你知道卷子所有的题目”和“你考试时一道道知晓”,哪个更符合测验的本质?
    • 肯定是第二种,所以训练时按照测试时的思路去让机器学习,Mask 遮挡后续数据,“一道道”处理。
  • Feed Forward
  • Encoder-Decoder Attention
    这里Attention名称变了,说明 Q、K、V 的来源变了。
    • 即 K、V 来自于 Encoder,Q 来自于 Decoder 。
    • 回顾注意力机制的本质,提取重要信息,所以这里 Q 是解码的目标表征,而 K、V 是要解码的数据表征, 利用目标 Q 结合数据 K 得出重要信息权重,后结合数据 V 进一步把真正解码的信息求出。
      image
  • 每个子层都还有一个 残差网络 + 归一化。
  • 最后全连接和softmax层的作用
    image
  • 根据softmax最大概率,确定此位置的单词。
    image

1.3 原本的seq2seq框架问题

  • 原本是两个 LSTM,一个为 Encoder,一个为 Decoder;
  • 导致每次生成的词都是利用 Encoder 的到的全部信息去生成(很多对生成新词并无太大意义),Transformer 解决了这个问题。

上一篇 -> 机器学习课程笔记 5。

posted @ 2022-10-14 17:49  bok_tech  阅读(79)  评论(0)    收藏  举报