Seq2Seq 到 Attention的演变

https://zhuanlan.zhihu.com/p/28054589

1、Encoder-Decoder is also called Seq2Seq

It's been used to generator sentence based on differenct input length and output length

我们知道将S2S就是将序列信息压缩到一个向量c，这个c具体是如何形成？其实有多种方式

如果RNN使用GRU，则可以是：

而我常用的LSTM增加了记忆状态state_c，所以变成[state_h,state_c]

2、得到了c之后如何解码也是一个问题，常见的解码方式有：

我们的对话模型采用的就是这种解码方式，不过这里面少了input层

或者

3、那么Attention机制是什么？

Attention的提出，就是为了解决S2S的一个问题，就是将信息压缩成一个向量c之后，必然会损失很多的信息。

一个思路是，我们不应该压缩成一个c，而是应该生成很多c，并根据不同时序的权重不同，去加权求和使用这些c

下列是两个图的对比：

posted @ 2019-05-30 14:38 yjy888 阅读(397) 评论(0) 收藏举报

刷新页面返回顶部