关键词提取有哪些方案？刘志远回答

作者：刘知远
链接：https://www.zhihu.com/question/21104071/answer/24556905
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

我博士阶段的研究课题就是关键词抽取，欢迎下载阅读我的论文“基于文档主题结构的关键词抽取方法研究”。
以我做关键词抽取的经验，建议如下：
1. TFIDF是很强的baseline，具有较强的普适性，如果没有太多经验的话，可以实现该算法基本能应付大部分关键词抽取的场景了。
2. 对于中文而言，中文分词和词性标注的性能对关键词抽取的效果至关重要。
3. 较复杂的算法各自有些问题，如Topic Model，它的主要问题是抽取的关键词一般过于宽泛，不能较好反映文章主题。这在我的博士论文中有专门实验和论述；TextRank实际应用效果并不比TFIDF有明显优势，而且由于涉及网络构建和随机游走的迭代算法，效率极低。这些复杂算法集中想要解决的问题，是如何利用更丰富的文档外部和内部信息进行抽取。如果有兴趣尝试更复杂的算法，我认为我们提出的基于SMT（统计机器翻译）的模型，可以较好地兼顾效率和效果。
4. 以上都是无监督算法，即没有事先标注好的数据集合。而如果我们有事先标注好的数据集合的话，就可以将关键词抽取问题转换为有监督的分类问题。这在我博士论文中的相关工作介绍中均有提到。从性能上来讲，利用有监督模型的效果普遍要优于无监督模型，对关键词抽取来讲亦是如此。在Web 2.0时代的社会标签推荐问题，就是典型的有监督的关键词推荐问题，也是典型的多分类、多标签的分类问题，有很多高效算法可以使用。

posted @ 2017-04-21 15:26 yisawatbek 阅读(488) 评论(0) 收藏举报

刷新页面返回顶部

yisawatbek

关键词提取有哪些方案？刘志远回答

公告