【关键词提取】第四篇：候选词生成(上)

原文地址：http://www.cnblogs.com/lessmore/category/1009890.html 转载请保留本行，欢迎交流。

这里使用的方法是词性标注配合模式匹配，提取名词短语。通常来说一个句子的单词会聚合成组块(chunking)短语，例如常见的名词短语组块，动词组块等。查看标注的数据集发现，大部分关键词都是名词短语组块，可以通过规则进行模式匹配高效提取这类关键词。下面将分别叙述词性标注和本文中使用的规则。

词性标注就是给每个单词标注为名词、动词、副词等词性。对英文来说，不存在分词的问题，由标点符号分割的每个字符串自然是一个单词。英文中单词存在一些有规则的变化，例如名词单复数，动词时态等，这部分对于词性标注很好解决。还有部分单词有不同的词性，例如“process”既可以是名词，也可以是动词，需要根据上下文信息消除歧义。传统上，词性标注有基于规则和基于统计的方法。目前基于统计的方法，包括隐式马尔可夫模型、最大熵模型等标注的准确率都超过95%，我们可以放心直接使用流行的词性标注工具，词性标注错误几乎不会影响关键词提取的性能。

本文提取名词性短语使用的正则规则是：NP=(NN│JJ)(NN)。其中NN匹配名词单复数，专有名词单复数，JJ匹配形容词及其比较级、最高级。这条规则是经验性的结论，对于为什么不加入匹配冠词、副词等问题无法一一做出合理的解释，这是实验中考虑到平衡候选词数目和召回率选取的规则。

使用规则匹配名词短语在本文中有良好地效果，后文中会有性能指标展示，但不可避免的有巨大的局限性。首先是本文所用数据集的特点，文本短，关键词数量多，并且关键词大部分是名词性短语，这对于组块提取方法有得天独厚的优势。如果文本是通常的长文本，候选词的数目会线性增长，在通常意义下的关键词数目较少的情况下会引入更多干扰误差。其次，规则提取名词性短语不适合提取其他类型的组块，如果加入匹配介词或者动词，匹配得到的结果几乎能覆盖整个文档，造成候选词数量膨胀，带来的误差远远高于所召回寥寥无几的动词短语。由此可以看出使用词性标注模式匹配无法处理更复杂的关键词类型，也无法推广至一般的关键词自动提取场景。

posted @ 2017-05-27 21:26 小小的港湾阅读(1512) 评论(0) 收藏举报

刷新页面返回顶部

【关键词提取】第四篇：候选词生成(上)

目录：

公告