随笔分类 - 深度学习
摘要:Transformer 自 Attention 机制提出后,加入 Attention 的 seq2seq 模型在各个任务上都有了提升,所以现在的 seq2seq 模型指的都是结合 RNN 和 Attention 的模型。 Transformer 模型使用了 self-Attention 机制,不采用
阅读全文
摘要:RNN Recurrent Neural Networks,即循环神经网络,是一种时间上进行线性递归的神经网络。 它在每个时刻接收一个输入 xt 和上一时刻的隐藏状态 ht-1,计算得到 ht。 左侧是模型的基本结构,右侧就是它在时间上进行展开的示意图。 RNN 中常用的激活函数是 tanh。 而R
阅读全文
摘要:seq2seq 是RNN的变种,也叫 Encoder-Decoder 模型。它的输入是一个序列,输出也是一个序列,常用于翻译等场景。 利用两个 RNN,Encoder 负责将输入序列压缩成指定长度的上下文向量c,Decoder 则负责根据上下文向量c生成指定的序列。 上下文向量c也可以参与序列所有时
阅读全文
浙公网安备 33010602011771号