随笔档案「2021年10月」 - 快到皖里来

Transformer架构记录（四）

摘要：Transformer架构记录（一、二、三）针对Transformer的Encoder-block部分做了简要介绍，本文作为该系列的最终章，将以Decoder-block介绍结束本系列。一个完整的Decoder-block的结构如下所示： Decoder-block与Encoder-block的差阅读全文

posted @ 2021-10-03 17:53 快到皖里来阅读(242) 评论(0) 推荐(0)

Transformer架构记录（三）

摘要：Transformer架构记录（二）中提到，整个Encoder-block的结构如下图所示：本文聚焦上图中的Multi-Head Attention模块，即下图所示： 1. self-Attention self-Attention是理解Multi-Head Attention模块的基础，因此需要阅读全文

posted @ 2021-10-03 16:31 快到皖里来阅读(356) 评论(0) 推荐(0)

Transformer架构记录（二）

摘要：在 Transformer架构记录（一）中，得到了一句话的数字表示 X,下面将 X 输入到Encoder的第一个Encoder-block中对其做进一步处理。一个完整的Encoder-block如下图所示：一个完整的Encoder-block由两个子模块构成，分别为Multi-Head Atte 阅读全文

posted @ 2021-10-03 14:11 快到皖里来阅读(207) 评论(0) 推荐(0)

Transformer架构记录（一）

摘要：Transformer架构是2017年由google研究团队提出的一项全新的自然语言处理模型架构，首次应用于机器翻译任务中，该模型出自论文《Attention is all you need》。有别于传统的CNN、RNN架构，Transformer摒弃以往的序列建模思想，全面采用自注意力机制。 T 阅读全文

posted @ 2021-10-03 13:26 快到皖里来阅读(527) 评论(0) 推荐(0)

NLP预训练发展小结二（Bert之后）

摘要：本篇博文简要记录基于Transformer的各类自然语言处理预训练模型（自Bert开始）的特点及使用。 1. Bert BERT（Bidirectional Encoder Representations from Transformers）做的是一个上下文双向的信息编码器； Bert与之前的ELM 阅读全文

posted @ 2021-10-02 15:47 快到皖里来阅读(252) 评论(0) 推荐(0)

NLP预训练发展小结一（Bert之前）

摘要：本篇博文简要记录在预训练模型Bert出现之前，NLP领域预训练模式的发展，主要围绕Word Embedding的提出与改进。 1. 预训练任务：语言模型早期在NLP领域做预训练的主要任务为语言模型（这是一个自然语言处理的任务），语言模型即用于计算某句话的出现概率，也可以理解为输入一句话的前面几个单阅读全文

posted @ 2021-10-02 13:01 快到皖里来阅读(152) 评论(0) 推荐(0)

pythonfl

10 2021 档案

公告