序列模型
标准神经网络的缺点

对于标准的神经网络而言,存在两个明显的问题。首先,由于对于不同的样本,输出可能会有不同的长度;其次文本的不同位置不可共享特征。
下图是循环神经网络的结构图,这种网络结构对于输入的每一项都借鉴了前面位置的信息用于输出。

每个单元的计算表达式如图所示。

不同的RNN网络结构
主要的模型有五种:一对一、一对多、多对一、多对多(输入长度和输出长度相同)、多对多(输入长度和输出长度不等)

门控循环单元(GRU)
特点:修改了循环神经网络的隐藏层,更好地捕捉了长距离的关系,同时有助于减轻梯度消失的问题。
gru常见的公式:

长短期记忆(LSTM )
结构如下图所示:

双向RNN
结构如下图所示:

深度RNN
结构如下:

词嵌入
词嵌入是一种词的类型表示,具有相似意思的词具有相似的表示,将词汇映射到实数向量的方法的总称。
关于嵌入向量是以某个词为例(建立one-hot向量来表示这个单词)左乘一个参数矩阵E,得到嵌入向量。具体如下图所示。
集束算法

集束算法搜索会考虑多个选择,这个选择的多少取决于搜索算法的一个参数B(集束宽)。比如在这个例子中,集束宽度为3,因此一次会考虑3个,在下次查找中选出最大可能性的单词。这种搜索方式最终会终止在句尾符号上,然后输出最有可能输出的一个句子。
BLEU分数
BLEU或双语评估研究是一种基于分数的方法,用于评估由自然语言处理系统执行的翻译工作的质量。
注意力机制的直观理解

注意力机制的原理是看各个单词应该放注意力在这个单词上。

浙公网安备 33010602011771号