第七篇：An Empirical Study of Automatic Chinese Word Segmentation for Spoken Language Understanding and Named Entity Recognition

一、本文主要内容--自动CWS与NER研究（Chinese Word Segmentation (CWS)）

　　还是老生常谈，英文有空格分词，有明显的边界，而中文没有，句子是一串字符，需要做分词。所以，在对中文做任务的方面，第一步就是识别句子序列标记边界，也就是中文单词分割（CWS）。本文觉得，虽然有很多提升精度的分词做法，但是对后续任务的影响研究不足，本文就是在研究各种分词后的结果对NER和SLU任务的影响。

　　一些文本训练出来的模型具有通用性，但是鲁棒性不高，需要进行微调才能使用，而，以前解决这一问题的方法有，使用没有标签的数据训练或者是部分标签的数据进行训练，而作者是提出了三种方法去解决这一问题。

（ tips：一般在任务中使用的分词方法有两种，第一种就是pipeline，第二种是joint-learning，前者是先进行分词，输出后再进行任务上的训练，虽然前者会传播一定的错误给后续任务；而后者是将分词和模型任务同时进行，后者可以直接包括消歧、序列标记等等任务一起，但是后者一般都是假定训练数据有人工分词，这限制了这种方法的使用。）

　　因此本文采用pipeline的方法进行任务，但是为了解决传播错误性，将附加特征到序列任务中，提高模型的robust 抵消一些错误。

　　作者研究了三种情况下，分词对任务的影响。

1、先假定一个领域（金融、医学等等），没有单词边界信息，那么首先就可以进行分词训练这个领域的数据，去得到这个领域的单词边界。但是这个切分的单词与这个领域的问题不匹配，这个时候我们主要是用三个方法去改进或者修改这个错误。

　　（1）将切分的单词输出作为附加特征加入到序列任务中，这个能提高鲁棒性。

　　（2）我们用从后续任务训练数据导出的部分标记数据来调整现有的单词片段，进一步提高端到端的性能。

　　（3）采用n-best 的方法进行切分单词并输出，使得分词错误对子任务的影响减小。

2、假定领域的训练数据有单词边界，我们能够用数据本身训练一个域字段，并将其应用于测试数据。这使我们能够看到一个用域内数据训练的单词片段和一个用公开可用数据训练的单词片段之间的差异。

3、假设域训练和测试数据都有单词边界信息，它允许用一个完美的单词分割器来探索后续任务的上限性能。

二、相关工作--CWS应用到序列任务中

　　1、基线系统：CRF、RNN或者两者的组合；本文中使用trigram within 5-character window

　　2、如果领域中没有单词边界信息时，我们可以用领域公开的数据去训练一个自动切分单词的，（监督CWS的一个主要方法是将其定义为字符序列标记问题，并将每个字符的位置标记在一个单词中，BIES / IOBES ，CRF using the input features of character unigrams and bigrams，）

　　3、直接整合切分后的词时传统的pipeline方法，直接将切分好的词片段（word unit）输出传给后续任务，但是切分错的词肯定存在，于是就传播了错误；我们采用将切分好的词片段作为附加特征输出到序列任务中。

　　采用部分学习适应，公共的语料存在体裁不同、切分标准不同，对后续任务的影响不可估计。在NER任务中，即使不知道边界信息，但是通过语料的标签，还是会提供边界信息。边缘概率以及损失函数：

用CRF，然后基于随机梯度优化等式（2），作者表示，希望这种部分适应学习有助于改善词切分。

　　用一个最佳输出分词结果可能不是最合适的，所以，作者采用n个最佳分词结果输出。通过包含分词信息，我们可以通过边缘化所有可能的分词来重写它。，可以堪称，前者是一个NER/SLU模型，后者是一个分词模型。

　　4、在NER任务中，可以观测到三种不同情况下，CWS对NER任务的影响。

三、个人想法

　　1、该文主要是研究自动分词在任务中的影响，使用分词输出作为附加功能，通过部分学习和利用n-最佳列表进行适配。

　　2、本文主要是说明，领域的数据用领域数据训练的词切分器切分，效果更好，而且一部分的人工标注分词，对结果会进一步提升。

　　3、在以后的研究上，可以考虑在进行大量的领域数据标注过的训练数据上进行训练模型，再将分词模型应用到相同的任务中去。

　　4、对目前的小作业，意义在于，做出人工实体识别的修正，然后再去训练模型去识别实体，这样会在一定程度上消去歧义。

　　5、作者说还想尝试两个CRF叠加后的相关研究，这方面，可以去查看下最新的论文。

posted @ 2020-04-14 20:34 在代码的道路上倔强阅读(221) 评论(0) 收藏举报

刷新页面返回顶部

在代码的道路上倔强

第七篇：An Empirical Study of Automatic Chinese Word Segmentation for Spoken Language Understanding and Named Entity Recognition

公告