Seq2Seq模型的注意力机制

概述

Seq2Seq模型，顾名思义就是把一种对象序列转换为另一种对象序列的模型，模型的工作流程如下所示：

当我们把一个抽象的Seq2Seq模型转化为一个具体的任务，以NMT任务为例，输入的是一系列单词，输出的同样是一系列单词

深入

Looking under the hood，我们可以发现Seq2Seq模型由一个Encoder和一个Decoder组成
Encoder可以处理输入序列，捕捉输入序列的上下文信息
Decoder可以处理Encoder输出的上下文信息，进行生成任务

在NMT任务中，Encoder和Decoder都是RNN，上下文信息是向量，向量的大小就是RNN隐藏单元的数量
从下图我们可以看出，Encoder最后一个隐藏状态就是Decoder所需要的上下文信息