序列模型

标准神经网络的缺点

 

对于标准的神经网络而言,存在两个明显的问题。首先,由于对于不同的样本,输出可能会有不同的长度;其次文本的不同位置不可共享特征。

下图是循环神经网络的结构图,这种网络结构对于输入的每一项都借鉴了前面位置的信息用于输出。

 

 

每个单元的计算表达式如图所示。

 

 不同的RNN网络结构

主要的模型有五种:一对一、一对多、多对一、多对多(输入长度和输出长度相同)、多对多(输入长度和输出长度不等)

 

门控循环单元(GRU)

特点:修改了循环神经网络的隐藏层,更好地捕捉了长距离的关系,同时有助于减轻梯度消失的问题。

gru常见的公式:

 

长短期记忆(LSTM )

结构如下图所示:

 

双向RNN

结构如下图所示:

 

深度RNN 

结构如下:

词嵌入

词嵌入是一种词的类型表示,具有相似意思的词具有相似的表示,将词汇映射到实数向量的方法的总称。

关于嵌入向量是以某个词为例(建立one-hot向量来表示这个单词)左乘一个参数矩阵E,得到嵌入向量。具体如下图所示。

  

集束算法

 

 集束算法搜索会考虑多个选择,这个选择的多少取决于搜索算法的一个参数B(集束宽)。比如在这个例子中,集束宽度为3,因此一次会考虑3个,在下次查找中选出最大可能性的单词。这种搜索方式最终会终止在句尾符号上,然后输出最有可能输出的一个句子。

BLEU分数

BLEU或双语评估研究是一种基于分数的方法,用于评估由自然语言处理系统执行的翻译工作的质量。

注意力机制的直观理解

 

 

 注意力机制的原理是看各个单词应该放注意力在这个单词上。

posted @ 2022-10-13 16:03  Charlton_99ing  阅读(73)  评论(0)    收藏  举报