摘要: 一.ElMO 背景:Word2vec,glove和fasttext虽然能表示语义和语法信息,但是并不能够区分一词多义 网络建构: 两个单向的LSTM进行拼接,把每层拼接的中间结果之和作为输出 Q:为啥不用BI-LSTM? 避免传播前后向未来要预测的信息 原理与损失函数: 前向模型: 后向模型: 目标 阅读全文
posted @ 2020-08-23 20:45 hello!元卜 阅读(1417) 评论(0) 推荐(0)
摘要: 核心思想: Self-Attention:能注意到输入序列的不同位置以计算该序列的表达能力,类似于textCNN中的卷积核 Encoder-Decoder 多层注意力机制(Scaled dot product attention,Multi-head attention) transformer整体 阅读全文
posted @ 2020-08-23 20:29 hello!元卜 阅读(1079) 评论(0) 推荐(0)
摘要: transformer: 背景: 1.RNN很难并行计算 2.后续很多预训练模型的基础:GPT,BERT,XLNET,T5,structBert等 3.Attention 2017 Google Q1:什么是Attention? 本质是一系列权重的分配,赋予模型对于重要性的区分辨别能力 首先来复习一 阅读全文
posted @ 2020-08-23 17:07 hello!元卜 阅读(595) 评论(0) 推荐(0)