深度学习 - 随笔分类 - 肃木易

Transformer、BERT

摘要：Transformer 自 Attention 机制提出后，加入 Attention 的 seq2seq 模型在各个任务上都有了提升，所以现在的 seq2seq 模型指的都是结合 RNN 和 Attention 的模型。 Transformer 模型使用了 self-Attention 机制，不采用阅读全文

posted @ 2020-05-11 06:10 肃木易阅读(2159) 评论(0) 推荐(0)

LSTM、RNN、GRU

摘要：RNN Recurrent Neural Networks，即循环神经网络，是一种时间上进行线性递归的神经网络。它在每个时刻接收一个输入 xt 和上一时刻的隐藏状态 ht-1，计算得到 ht。左侧是模型的基本结构，右侧就是它在时间上进行展开的示意图。 RNN 中常用的激活函数是 tanh。而R 阅读全文

posted @ 2020-05-10 02:06 肃木易阅读(600) 评论(0) 推荐(0)

seq2seq、attention

摘要：seq2seq 是RNN的变种，也叫 Encoder-Decoder 模型。它的输入是一个序列，输出也是一个序列，常用于翻译等场景。利用两个 RNN，Encoder 负责将输入序列压缩成指定长度的上下文向量c，Decoder 则负责根据上下文向量c生成指定的序列。上下文向量c也可以参与序列所有时阅读全文

posted @ 2020-04-28 11:41 肃木易阅读(456) 评论(0) 推荐(0)

随笔分类 - 深度学习

公告