http://www.cbdio.com/BigData/2016-03/03/content_4675344.htm

《刘知远:面向大规模知识图谱的表示学习技术》

 

video1:大规模百科图谱构建

如何从零开始构建一个中文、通用、百科知识图谱?

百科知识图谱:是一类专门从百科类网站中抽取知识构建而成的知识图谱

百科类网站中的页面和纯文本页面的区别:

  • 每个页面分别围绕一个实体进行全方面的介绍
  • 内容由众包编辑,质量相对较高
  • 页面格式统一,包含了许多半结构化的数据,方便抽取

典型代表:

  • DBpedia
  • YAGO

DBpedia构建方法

知识图谱中的关系

  • 实体和实体(仅仅从百科知识网站抽取知识,只能抽取到实体和实体的关系)
  • 概念和概念(大量的人工,infobox)
  • 实体和概念(大量的人工,infobox)

 YAGO构建方法

实体和概念关系的自动获取

  • Wikipedia Category System
      • conceptual categories  eg:Jay Zhou Albums
      • administractive purposes
      • relational information eg:1879 births 
      • thematic vicinity  eg:Physics
  • Identifying Conceptual Categories
      • shallow linguistic of the category name
        • if the head of the categogy name is a plural word,the category is most like a conceptual category

概念与概念关系的自动获取

  • WordNet作为上层本体
  • 建立Wikipedia conceptual categoriesWordNet概念之间的subclassof关系

  (缺点:虽说关系抽取是自动的,但由于利用了英语的语言特性,无法适用于其他语言,比如中文)

总结:当前百科知识图谱构建的局限性

  • 人工代价大
      • 本体(概念-概念)通过人工构建
      • 实体分类通过人工指定方式构建
  • 利用了语言的特性
      • 无法适用于其他语言
  • 仅对百科类网站中的半结构化数据进行了抽取,未对数据进行进一步加工
      • 编写 不规范,格式不统一
      • 存在内容缺失情况

普适型的中文通用百科知识图谱构建方法

http://blog.openkg.cn/%E5%BE%90%E6%B3%A2-%E7%99%BE%E7%A7%91%E7%9F%A5%E8%AF%86%E5%9B%BE%E8%B0%B1%E6%9E%84%E5%BB%BA/

 

http://www.sohu.com/a/190460034_642762