XLNET

回顾自回归和自编码

自回归

  • 代表:ELMO、GPT
  • 缺点:无法同时利用上下文信息。
  • 优点:天然匹配生成类任务

自编码

  • 代表:BERT
  • 优点:自然的融入双向语言模型,可以同时看到上文和下文
  • 缺点:输入侧引入[MASK]标记,导致预训练和Fine-tuning阶段不一致,因为Fine-tuning阶段看不到[MASK]标记

XLNet的出发点:能否融合自回归 LM 和 DAE LM 两者的优点。具体来说就是,站在 AR 的角度,如何引入和双向语言模型等价的效果

Transformer-XL
Segment Recurrence Mechanism(段循环机制)想做的就是,能不能在前一段计算完后,将它计算出的隐状态都保存下来,存到一个 Memeory 中,之后在计算当前段的时候,将之前存下来的隐状态和当前段的隐状态拼起来,作为 Attention 机制的 K 和 V,从而获得更长的上下文信息
使用cache缓存部分历史状态。计算梯度的时候只使用本 segment 的信息,但是在 forward 的时候其实用到了之前的 segment(甚至很久以前的 segment)的信息。

todo 计算公式

Relative Positional Encoding

Relative Segment Encoding

posted @ 2021-12-15 23:49  _无支祁  阅读(230)  评论(0)    收藏  举报