Fool's Garden

Talking about Windows Mobile and Embedded gadgets...Web counter

导航

Information Retrieval, Information Extraction, and Question Answering

Posted on 2005-05-17 16:40  Levins Dai  阅读(1358)  评论(5)    收藏  举报

在信息大爆炸的今天,如何过滤掉无用的信息,如何快速检索和定位有价值的资料是信息处理技术关注的热点问题之一。对于自动的信息获取(Information Access)方法的研究,可以分成典型的三类:信息检索(Information Retrieval)、信息抽取(Inforamtion Extraction)以及自动问答技术(Question Answering)。

Information Retrieval, IR, 是目前理论最为成熟,研究成果最为丰富的一个课题。IR的任务就是按照用户提供的关键字(或者关键字序列的逻辑连接)检索出最“相关”的档案文件出来。这里的档案文件既可以是最普通的文本文档,也可以是HTML文档,或者是PDF, Word文档等等……IR返回的结果只是最“相关”的档案,因此,也有人把它称为Document Retrieval。现在最Hot的Web Search Engine: Google,以及我曾提到过的Lucene,都是属于IR范畴的成功的代表性成果。IR技术虽然有一段较长的历史,但是大体上仍然没有摆脱基于词频、文档频率统计的理论框架,仍然不涉及任何的语义分析和理解,因此在短时间内,其性能也很难得到显著提高。在IR方面的最有名的TREC(Text REtrieval Conference)会议上,参赛系统最好情况下的检索准确率也仅维持在70%左右。

Inforamtion Extraction, IE, 的任务是在一系列给定的场景和主题中,利用预先定义的模板(pre-defined templates)扫描和抽取文本中的信息,并填写到一定的框架(frame)里面。比如,在大量的报纸新闻中,抽取关于反恐怖主义的信息,并写到一个包含时间、地点、人物、事件的表格里面,这就是信息抽取的一个例子。当然要对信息进行识别和抽取就必然涉及语义信息的分析和理解,整个过程从识别命名实体(Named Entities)开始,到识别实体关系(Entity Relations),再到识别信息模板(Message Template)。这是一个抽象程度越来越高,系统处理越来越复杂,越来越困难的一个过程。IE方面的研究似乎还很不成熟,也见不到比较成功的应用系统,最有名的恐怕就是Message Understand Conference了。

Question Answering, QA, 则可以接受用户用自然语言提出的问题,而不是关键字序列,并返回尽可能简洁、准确的答案,而不是包含答案的文档或者段落。显然QA可以大大提高用户检索信息的效率,于是近年来也收到越来越多的关注。TREC甚至增加了一个QA Track以推动自动问答技术的发展。事实上QA和IR, IE是紧密联系的,通常QA系统会利用IR技术来获得可能包含备选答案的文档段落。而如果把问题看成是信息模板,把答案结构看成是Message Frame,则接下来的答案抽取过程则可以当成是IE的一个典型应用。

References:
Information Retrieval Introduction
Introduction to Information Extraction Technology
Question Answering
Overview of the TREC 2003 Question Answering Track