10 2021 档案

摘要:Transformer架构记录(一、二、三)针对Transformer的Encoder-block部分做了简要介绍,本文作为该系列的最终章,将以Decoder-block介绍结束本系列。 一个完整的Decoder-block的结构如下所示: Decoder-block与Encoder-block的差 阅读全文
posted @ 2021-10-03 17:53 快到皖里来 阅读(240) 评论(0) 推荐(0)
摘要:Transformer架构记录(二)中提到,整个Encoder-block的结构如下图所示: 本文聚焦上图中的Multi-Head Attention模块,即下图所示: 1. self-Attention self-Attention是理解Multi-Head Attention模块的基础,因此需要 阅读全文
posted @ 2021-10-03 16:31 快到皖里来 阅读(337) 评论(0) 推荐(0)
摘要:在 Transformer架构记录(一)中,得到了一句话的数字表示 X,下面将 X 输入到Encoder的第一个Encoder-block中对其做进一步处理。 一个完整的Encoder-block如下图所示: 一个完整的Encoder-block由两个子模块构成,分别为Multi-Head Atte 阅读全文
posted @ 2021-10-03 14:11 快到皖里来 阅读(194) 评论(0) 推荐(0)
摘要:Transformer架构是2017年由google研究团队提出的一项全新的自然语言处理模型架构,首次应用于机器翻译任务中,该模型出自论文《Attention is all you need》。 有别于传统的CNN、RNN架构,Transformer摒弃以往的序列建模思想,全面采用自注意力机制。 T 阅读全文
posted @ 2021-10-03 13:26 快到皖里来 阅读(515) 评论(0) 推荐(0)
摘要:本篇博文简要记录基于Transformer的各类自然语言处理预训练模型(自Bert开始)的特点及使用。 1. Bert BERT(Bidirectional Encoder Representations from Transformers)做的是一个上下文双向的信息编码器; Bert与之前的ELM 阅读全文
posted @ 2021-10-02 15:47 快到皖里来 阅读(245) 评论(0) 推荐(0)
摘要:本篇博文简要记录在预训练模型Bert出现之前,NLP领域预训练模式的发展,主要围绕Word Embedding的提出与改进。 1. 预训练任务:语言模型 早期在NLP领域做预训练的主要任务为语言模型(这是一个自然语言处理的任务),语言模型即用于计算某句话的出现概率,也可以理解为输入一句话的前面几个单 阅读全文
posted @ 2021-10-02 13:01 快到皖里来 阅读(144) 评论(0) 推荐(0)