哈工大参赛系统的依存句法分析是如何实现的?

 

https://www.leiphone.com/news/201706/upso9nIUVbYttnMO.html

 

车万翔博士:目前依存分析领域两大主流方法分别是基于转移(Transition-based)和基于图(Graph-based)的依存分析。基于转移的方法是,构建一条从初始转移状态到终结状态的转移动作序列,在此过程中逐步生成依存树。其依存分析模型的目标是得到一个能够准确预测下一步转移动作的分类器。而基于图的算法将依存分析转换为在有向完全图中求解最大生成树的问题,是基于动态规划的一种图搜索算法。相较之下,基于转移的方法能获得更大范围内的特征(基于图的方法的可选特征受到动态规划的限制),此外,由于我们采用了贪婪搜索,因此基于转移的方法在预测时有相对更快的速度。除了以上两点之外,近年来,有许多基于转移的依存分析研究工作中将神经网络利用进来,有效提高了该方法的性能,而我们也一直在从事这方面的研究。因此我们最终选择了基于转移的分析方法。最终我们的系统在仅使用 1 个 CPU、8 GB 内存(实际使用了不到 4 GB)的虚拟机上,以较短的时间完成了全部语言的评测。

基于转移的方法的转移系统一般包括保存待处理词的缓存,保存正在处理词的栈和历史转移动作。我们采用的是基于转移的 List-based Arc-eager 算法(Choi and McCallum, 2013),该算法的转移系统比一般的转移系统多了一个双向队列,用于处理非投射现象,因此可以分析非投射树(弧之间有交叉的树)。

 

posted @ 2017-12-14 17:12  papering  阅读(850)  评论(0编辑  收藏  举报