信息抽取 (Information Extraction)

信息抽取(information extraction),即从自然语言文本中,抽取出特定的事件或事实信息,帮助我们将海量内容自动分类、提取和重构。
这些信息通常包括实体(entity)、关系(relation)、事件(event)。
例如从新闻中抽取时间、地点、关键人物,或者从技术文档中抽取产品名称、开发时间、性能指标等。

显然,信息抽取任务与命名实体识别任务类似,但相对来说更为复杂。有时,信息抽取也被称为事件抽取(event extraction)。
与自动摘要相比,信息抽取更有目的性,并能将找到的信息以一定的框架展示。自动摘要输出的则是完整的自然语言句子,需要考虑语言的连贯和语法,甚至是逻辑。有时信息抽取也被用来完成自动摘要。
由于能从自然语言中抽取出信息框架和用户感兴趣的事实信息,无论是在知识图谱、信息检索、问答系统还是在情感分析、文本挖掘中,信息抽取都有广泛应用。

信息抽取主要包括三个子任务:

  • 实体抽取与链指:也就是命名实体识别
  • 关系抽取:通常我们说的三元组(triple)抽取,主要用于抽取实体间的关系
  • 事件抽取:相当于一种多元关系的抽取

https://www.cnblogs.com/sandwichnlp/p/12020066.html


词频
TF-IDF
TextRank

posted on 2020-06-28 10:18  HBU_DAVID  阅读(828)  评论(0编辑  收藏  举报

导航