通用概念知识图谱介绍

1.定义

通用概念知识图谱指由实体(比如“刘德华”)、概念(比如“演员”),实体与概念之间的类属关系(又称isA关系,比如 “刘德华 isA 演员”),概念与概念之间的 subclass of 关系(比如 “电影演员”是“演员”的子类)组成的图谱。通常后面两类关系,又统称为 isA 关系。如果 A isA B,通常称A为B的下位词(hyponym),或者B为A的上位词(hypernym)。

2.用途

1.搜索意图理解

用户搜索“西游记”,我们通过它的概念“中国古代四大名著”、“小说”可以理解用户是在搜索小说类名著。对于用户搜索意图的精准理解可以进一步帮助改进检索、排序与推荐。

2.实体相似性判断

当用户需要判断“复旦大学”和“上海交大”是否相似时,仅仅根据字面相似性,很难知道它们是相似实体。但是通过概念知识图谱,我们可以看到它们的概念是差不多的,从而可以判断它们在语义上是相似的。

3.可解释实体推荐

当用户先后搜索“复旦大学”、“上海交通大学”,“上海理工大学”时,我们人类可以自然地推断用户是在搜索上海高校。如今,机器通过检索概念知识图谱,发现这三个实体共享“上海高校”这个概念,从而也可以准确识别用户的搜索意图,进一步推荐“上海外国语大学”,“同济大学”等实体,并给出用户是在搜索上海高校这一解释。

3.概念知识图谱实例

1.大词林(哈工大)

http://www.bigcilin.com/WSDTest/?q=

语言:中文

分类体系(schema):人工构建

组成:实体、上位词、上下位关系、同义词关系、实体属性。

存储:关系数据库

2.CN-Probase(复旦大学)

http://shuyantech.com/cnprobase/search

语言:中文

分类体系(schema):双层,”类别-实例“,以百度百科的词条标签作为类别

数据:主要利用百度百科的词条标签作为类别,下图是其图谱数据与PKUBASE的pkubase-types.txt数据的对照

存储:Neo4j

3.Xlore(清华大学)

https://xlore.org/?lang=cn

语言:中文、英文

分类体系(schema):使用百度百科、维基百科的分类体系,如:http://baike.baidu.com/fenlei/艺术https://zh.wikipedia.org/wiki/Category:周杰伦

组成:概念表、实例表、属性表、实例摘要文本、信息框、上下位关系、相关关系、跨语言链接、URL

数据:百度百科、中文维基百科、英文维基百科

存储:类似关系数据库

4.微软概念图谱

https://concept.research.microsoft.com/

语言:英文

分类体系(schema):双层,”类别-实例“

组成:概念表、实例表、上下位关系(IsA)表

存储:不详

5.ConceptNet(MIT Media Lab)

http://conceptnet.io/

语言:多语言

分类体系:URI hierarchy https://github.com/commonsense/conceptnet5/wiki/URI-hierarchy

 

  • /a/: assertions, also known as edges (as of 5.5, these are the same thing)
  • /c/: concepts, also known as terms (words and phrases in a particular language)
  • /d/: datasets (broad sources of knowledge)
  • /r/: language-independent relations, such as /r/IsA
  • /s/: knowledge sources, which can be human contributors, Web sites, or automated processes
  • /and/: conjunctions of sources that were used together to create an assertion

例子:/c/en/common_sense

数据:ConceptNet 5、DBPedia(infoboxes)、Wiktionary(multilingual dictionary,synonyms、antonyms、translations)、WordNet、OpenCyc(high-level ontology)、Verbosity

存储:PostgreSQL

 

posted @ 2019-08-14 18:12  郝丁魁  阅读(2685)  评论(0编辑  收藏  举报