第八篇:Large-Scale Named Entity Disambiguation Based on Wikipedia Data
(待重新编辑)
一、本文主要内容
实体识别的目标是将表层形式(surface form:实体的助记符号)映射到实体(entity:客观存在的事物),并标注实体的类型(人名、地名、组织名等),但是当文档数量越来越多的时候,表层形式的语义歧义问题就越来越突出了。
1998年Bagga和Baldwin提出来的,解决了共指关系,跨文档的统计各个文档中所有出现这个实体的句子词向量,然后计算向量的余弦值(构建词向量从所有的文献中,进而达到消歧的效果);之后是Ravin和Kazi在1999年第一次提出一个成功解决命名实体识别存在歧义的方法-----Nominator,是比较上下文的相似度然后再将其整合到实体中; 然而,这两项研究的目标都是在给定的文档集合中对实体的所有提及进行分类,而不是将这些映射到给定的实体参考列表。
之后就是用一个地名参考实体列表,在文章中进行解析地名,
ESA使用倒置索引为每个文档在维基百科文章上构建向量,并计算两个向量之间的余弦相似性。
分为两个子任务:
1、如何从维基百科中得到知识:已知的实体、实体的类别、实体已知的表层形式、上下文证据、类别标记
2、如何得到上面的五种数据:
首先是英文维基百科的页面可以分为四类,实体页面(罗列单个实体的描述信息(最多))、重定向页面(一个实体有多种名称,或者某些页面已经废弃不用,来指向其他表示他们的页面)、消歧页面(一个实体有多种名称,消岐页面列出名称可能表示的所有实体)、列表页面(聚集相同类型的实体)
其次抽取到的内容是,第一是得到表层形式到实体的映射(实体页面和重定向页面的title,和这些title去除同位语的形式,消岐页面:指向其他实体页面的超链接,是被指实体的表层形式,实体页面的正文中,指向其他实体页面的超链接是被指实体的表层形式。),第二是得到类别标记(列表页面的title是所有本页面的类别标记,实体页面中包含的类别标记,页面段落title),第三是得到上下文(实体页面,其他指向该实体页面的实体(互为上下文))
最后是运用





浙公网安备 33010602011771号