随笔分类 -  深度学习

摘要:Transformer 自 Attention 机制提出后,加入 Attention 的 seq2seq 模型在各个任务上都有了提升,所以现在的 seq2seq 模型指的都是结合 RNN 和 Attention 的模型。 Transformer 模型使用了 self-Attention 机制,不采用 阅读全文
posted @ 2020-05-11 06:10 肃木易 阅读(2159) 评论(0) 推荐(0)
摘要:RNN Recurrent Neural Networks,即循环神经网络,是一种时间上进行线性递归的神经网络。 它在每个时刻接收一个输入 xt 和上一时刻的隐藏状态 ht-1,计算得到 ht。 左侧是模型的基本结构,右侧就是它在时间上进行展开的示意图。 RNN 中常用的激活函数是 tanh。 而R 阅读全文
posted @ 2020-05-10 02:06 肃木易 阅读(600) 评论(0) 推荐(0)
摘要:seq2seq 是RNN的变种,也叫 Encoder-Decoder 模型。它的输入是一个序列,输出也是一个序列,常用于翻译等场景。 利用两个 RNN,Encoder 负责将输入序列压缩成指定长度的上下文向量c,Decoder 则负责根据上下文向量c生成指定的序列。 上下文向量c也可以参与序列所有时 阅读全文
posted @ 2020-04-28 11:41 肃木易 阅读(456) 评论(0) 推荐(0)