论文阅读 | You Only Need Attention to Traverse Trees

论文地址：https://www.aclweb.org/anthology/P19-1030/

已有的研究工作：

最近有众多的模型关注对于句子的通用编码建模，从而将其用在任何监督任务中。针对单词序列，完全基于Attention的模型存在两个主要的问题：1、随着句子长度的增长，其对内存的消耗会呈2次方增长；2、不能有效的抓取和利用语义信息。递归神经网络可以通过遍历树结构来提取很好语义信息。

本文的工作和创新点：

本文提出了一个Tree Transformer模型，该模型只需通过注意力机制进行递归遍历，就可以捕获用于句子的短语语法，以及用于依赖树的单词依赖性。

研究方法：

早期的研究方法：

句子向量的表示最早来自于2013年词嵌入的突破，现有的方法包括基于RNN类网络的方法，在单词序列上使用LSTM/GRU，在每一步提取上下文特征，之后使用某种池化方法。典型的例子如ELMO模型。

在Transformer提出之后，也有BERT、GPT等这样的利用attention的句子建模方法，在大规模的数据集上进行预训练。

这样的模型在建模的过程中没有考虑语法和语义上的一些信息。

同时也有一些对于自然语言句子的树形结构的研究，如RvNN模型，自底向上地在子节点上应用符合函数，计算父节点的表示，直到根节点。

本文提出的模型：

本文提出了一种新的递归神经网络结构，该结构由一个可分解的注意框架构成，称之为模型树转换器。其原理主要是：给定依赖关系树或选择树结构，任务是遍历其中的每一个子树，并推断出其根表示向量。该模型使用复合函数将一组子表示转换为一个单亲表示。该模型结构图如下图所示。

下面是具体的解释。对于依赖树（dependency tree），它在每个节点上都包含一个词，要遍历依赖树中的一个子树，需要同时查看父树和子树的表示。对于constituency tree，只有叶子节点包含单词，非终结向量仅在遍历了每个子树之后计算。使用attention块作为组成函数，

而对于本文的attention的计算方式，即multi-branch attention框架。它基于Transformer中的multi-head attention的框架。标准的dot-product attention的公式为：

因为我们需要n个branches，所以对于每个向量复制n份。所以应用下面公式：

其中i在[1,n]之间，W作为参数存在，并且节点之间的参数是相同的。之后对于得到的这些向量，使用残差连接在不同的语义空间上组合，最后通过一个层归一化。公式表达如下：

在这些transformer的表示上，使用一个position-wise的卷积网络。通过一个概率分布来进行放缩。

最后通过另一个残差连接组合，下面公式中的EwS表示element-wise summation。x和分别对应attention模块的输入输出。

实验部分：

与标准模型、基于lstm的模型以及树结构的LSTMs相比，本文模型在四个任务上得到了比较好的结果。

综合评价：

本文的idea让人感觉很自然，我们有LSTM网络，有结合了语义特征的tree LSTM网络。对于transformer结构，也可以由tree transformer结构。而且tree transformer结构除了可以捕获语义信息这个作用，也可以克服transformer对于长句子建模的问题。不过从实验结果来看，提升不是很明显，如在SST数据集上，tree transformer的结果86.66相比于tree LSTM的87.27还要更差一点。

posted @ 2020-04-19 22:14 bernieloveslife 阅读(690) 评论(0) 收藏举报

刷新页面返回顶部

bernieloveslife

论文阅读 | You Only Need Attention to Traverse Trees

公告