从零构建知识图谱Part1
参考了机械工业出版社出版,由邵浩,张凯,李方圆,张云柯,戴锡强编著的《从零构建知识图谱:技术、方法与案例》,用于个人学习。
知识图谱概览
知识图谱基本概念
知识图谱背景
知识
知识是人类对信息进行处理之后的认识和理解,是对数据和信息的凝炼、总结后的成果。
图谱
知识图谱就是用图的形式将知识表示出来。图中的结点代表语义实体或概念,边代表结点间的各种语义关系。
资源描述框架
基于符号的知识表示方式——资源描述框架(Resource Description Framework,RDF),它把知识表示为一个包含主语(Subject)、谓语(Predicate)和宾语(Object)的三元组<S,P,O>。
知识图谱定义
- 从Web的角度来看,像建立文本之间的超链接一样,构建知识图谱需要建立数据之间的
语义链接,并支持语义搜索,这样就改变了以前的信息检索方式,可以以更适合人类理
解的语言来进行检索,并以图形化的形式呈现。 - 从NLP的角度来看,构建知识图谱需要了解如何从非结构化的文本中抽取语义和结构化
数据。 - 从KR的角度来看,构建知识图谱需要了解如何利用计算机符号来表示和处理知识。
- 从AI的角度来看,构建知识图谱需要了解如何利用知识库来辅助理解人类语言,包括机
器翻译问题的解决。 - 从DB的角度来看,构建知识图谱需要了解使用何种方式来存储知识。
- 知识图谱,是结构化的语义知识库,用于以符号形式描述物理世界中的概念及其相互关
系,其基本组成单位是“实体–关系–实体”三元组,以及实体及其相关属性–值对,实体之间
通过关系相互联结,构成网状的知识结构。
常见概念
实体:对应一个语义本体。
属性:描述一类实体的特性。
关系:对应语义本体之间的关系,将实体连接起来。
知识图谱的模式
如何区分实体和概念
实体与概念之间通常是“是”的关系,概念和概念之间通常是“子集”关系。
由概念组成的体系称为本体,本体的表达能力比模式强,且包含各种规则。
模式则是轻量级的本体。
本体强调了概念之间的相互关系,描述了知识图谱的模式,而知识图谱是在本体的基础上增加了更丰富的实体信息。通俗讲,模式是骨架,而知识图谱的血肉。有了模式,可以更好地推理和联想。
知识图谱的技术架构
计算-融合-构建-表示-存储
知识图谱的构建与计算,不仅需要考虑如何结合文本、多媒体、半结构化、结构化知识、服务或API,以及时态知识等的统一知识表示,还需要进一步考虑如何结合结构化(如关系型数据库)、半结构(HTML或XML)和非结构化(文本、图像等)多源异质数据源来分别构建通用事实类(各种领域相关实体知识)、常识类、用户个人记忆类和服务任务类知识库等。针对不同类型的数据和知识,有不同的构建技术,如针对结构化数据的知识映射、针对半结构化知识的包装器(Wrapper),以及针对非结构化知识的文本挖掘和自然语言处理。文本挖掘充分利用Web和大规模语料库的冗余信息来发现隐含的模式;而自然语言处理更多是在开放或者确定的Schema下做各种知识抽取。为了得到融合的图谱,我们除了需要考虑离线的多源异构的知识融合,还需要额外考虑服务任务类动态知识的对象绑定。这项工作往往是在线完成的,相当于根据不同的交互,在线动态扩充知识图谱并实例化的过程。最后还需要考虑知识图谱的存储。既然有了知识,就必须用一定的手段去存储。但这里谈到的存储,不仅仅是建立一个知识库,还包括存储之后的应用效率等。传统型关系数据库,例如MySQL,以及一些NoSQL数据库,例如MongoDB,能不能存储KG呢?答案是肯定的,但从直观上说,考虑到知识是互联、庞大的,且联系是数据的本质所在,而传统型数据库对于数据联系的表现比较差,所以在知识图谱的存储上,关系型数据库没有图数据库灵活。
计算
表示学习,本体推理,链接预测,社区计算,相似子图计算,规则推理。
融合
多源异构知识融合,多媒体知识关联,服务任务对象绑定。
构建
通用事实类,常识类,用户个人信息类,服务任务类。
表示
结合文本,多媒体,半结构化或结构化知识,服务(或API),时态知识等的统一知识表示。
知识图谱技术体系
知识表示与知识建模
知识表示
知识表示共有五种角色:真实世界中知识的抽象替代、本体论的集合、不完整的智能推理理论、高效计算的媒介、知识的中间体。
可将知识表示理解为对真实世界的一种不完整的抽象描述,只包含人类或计算机想要关注的方面,同时也可以把它作为计算和推理的中间件。
描述逻辑
指一系列基于逻辑知识形式化的表示方法,能够以一种结构化的、易于理解的方式对知识进行表示和推理。
描述逻辑建立在概念和关系之上,概念即为知识图谱中的类和实体,关系则为实体之间的关系。
描述逻辑可以通过推理的方法基于原子概念对其他概念进行表示与描述。
在描述逻辑中,概念(Concept)表示类和实体,角色(Role)表示性质,个体(Individual)表示概念断言和常数,运算符(Operator)用于构建概念或角色的复杂表达。例如,雷军=小米公司^董事长,即可作为使用描述逻辑表示的最简单的一条知识。
术语知识(TBox)
指领域知识中的类、属性和关系,例如公司、地点等元素可以作为领域知识中的类。
断言知识(ABox)
指与实例有关的知识,例如<小米公司,法定代表人,雷军>即可作为一个断言知识。
描述语言
知识表示的过程中,除了使用逻辑来描述知识,还需要使用语言来基于规定的逻辑对知识进行描述并传递信息。通常使用资源描述框架(RDF)和网络本体语言(OWL)对知识进行描述,两者都使用可扩展标记语言(XML)作为核心语法。
XML
出XML文件的主要结构是一种树形结构。其中包括由<>组成的字段以及不包含<>字符的字段,由包含<>的字段嵌套不包含<>的字段共同构成了XML文件的基本单元元素。由<>组成的字段称为元素的标签,其中所有元素都可以自定义名称。而不包含<>的字段即要存储的字符数据,为元素的值。
RDF
RDF是语义网与本体等结构的基础层,对于人和计算机来说都有较好的可读性。在RDF中,知识以三元组的形式编码,其中每个三元组由一个主语、一个谓词(或一个属性)和一个宾语组成,可以方便地将RDF转化为自然语言。其中RDF的主语、宾语均可以是一个空白结点或用来唯一标识资源的国际化资源表示符(Internationalized Resource Identifier, IRI),谓词则必须是一个IRI。
<?xml version="1.0 "?>
<rdf:RDF xmlns:rdf= "http://www.w3.org/1999/02/22−rdf−syntax−ns#"
xmlns:ab= "http://www.about.com/"
xml:base= "http://www.base.com/">
<rdf:Description rdf:ID= "Lei Jun"
ab:work= "CEO"
ab:age= "40">
<ab:friend rdf:nodeID= "s3fo" />
</rdf:Description>
<rdf:Description rdf:ID= "s3fo"
rdf:ID= "Lin Bin"
ab:age= "40">
</rdf:Description>
</rdf:RDF>
上述代码表示的三元组为如下所示结构:

RDF使用了更加简单且接近自然语言的三元组形式,语义信息相对明确,可以更好地对知识进行表示和对元数据进行描述,也更容易理解。
OWL
与XML和RDF相比,OWL提供了更丰富的推理方法和词汇表,其中包括但不限于类之间的关系、基数、更丰富的属性特征和枚举类等。同时,为了适应不同场景,OWL拥有三个不同级别的方案,分别是OWLLite、OWLDL和OWLFull。OWLLite支持用于构造分类法和叙词表的简单约束和分类层次结构,类的基数(类中属性的数量)限制为0和1。OWLDL在保持计算完整性和可判定性的同时,提供了最大的表达能力,并且OWLDL类之间的基数不限于0和1。
OWLFull包含OWL的完整特性,并且对RDF有很好的支持。
OWL中的一些基本概念:
类:对现实世界中同类事物的抽象。
实体:指代现实世界中事物的元素。
属性:类中包含的属于该类的特征,该值可以是一个常量,也可以是另一个类。
表达式:由基本的实体组成的复杂描述。
正如在对知识表示进行介绍时提到的,尽管OWL被用于表示本体和知识,但OWL无法
表示现实世界知识的所有方面,因此可以根据需求选择较为重要的方面使用OWL进行表
示。
知识建模
指建立计算机可解释的知识模型的过程。模型可以是一些通用领域的知识模型,也可以是对于某种产品的解释或规范。通常知识模型都使用知识表示方法来存储和表示。
建模的主要过程:
- 知识获取:根据知识系统的要求从多个来源使用不同方法获取知识,然后对获取到的知识进行判别并分类保存。
- 知识结构化:使用不同方法对非结构化知识进行表示和存储,以达到建模的目的。然后通过已经建立的知识库,实现知识建模后的标准化和规范化。结构化的核心目标是将非结构化的数据结构化,并使用计算机可读的知识表示方法进行表示。该阶段的任务可以分为两部分:知识抽取和知识结构化的表示。知识抽取部分主要负责对非结构化或半结构化的知识(通常为自然语言或接近自然语言)进行抽取,并为后续的知识表示提供便利。根据我们对RDF与OWL等知识表示语言的了解,通常可以将自然语言以三元组的结构重新组织,这样既方便了人的阅读,也降低了后续将知识通过RDF与OWL表示的难度。在将知识抽取得到结构化数据后,还需将其转换为计算机可读的形式。常见方法是构建本体,并将知识保存为RDF或OWL文件。
本体构建
本体构建方面,比较经典的方法包括:METHONTOLOGY法、七步法等。
- 确定建立本体的目的,包括本体的预期用户、使用场景及本体设计的范围,输出一个描述本体规范的文档。
- 进行知识获取。可以和第一步同步进行。
- 对本体进行概念化。组织和结构化外部源获取到的知识,对获取到的外部知识进行抽象和汇总,提取出概念、类、关系等抽象关系,可以使用基于表格或图形的方法进行存储和展现。
- 集成已有本体,可以借鉴已有本体的某些定义,以此保持一致。
- 使用形式化语言实现该本体,例如RDF或OWL。
- 对构建好的本体进行评估,识别本体中存在的冗余、不完备与不一致,以此提升本体质量。
- 整理文档并保存,以便后期维护时快速进入本体的下一个生命周期。
知识抽取与知识挖掘
知识抽取
指从不同来源、不同结构的数据中,利用实体抽取、关系抽取、事件抽取等抽取知识的技术。
是知识图谱构建的基础。
知识抽取来源
知识图谱的数据来源按照结构分为结构化数据、半结构化数据和非结构化数据。

- 结构化数据抽取
直接映射的本质是通过编写启发式规则,将关系数据库的表转换为RDF格式三元组。表中的每个字段(列)转换为一个RDF属性,表中的每一行转换成一个RDF资源,表中的单元格转换成一个字面值。
R2RML是将关系数据库数据映射到RDF数据的语言,可以定制映射。分为三元组映射、主语映射、谓语宾语映射,谓语宾语映射又分为位于映射、宾语映射和引用宾语映射,一个三元组映射也可包含图映射。三元组映射将结构数据表中的每一行映射成一系列RDF三元组,如三元组(雷军,国籍,中国),(雷军,职业,企业家)等;主语映射从结构化数据表中生成三元组的主语,如雷军、林斌、马云等,谓语映射从结构化数据表中生成三元组的宾语,如姓
名、国籍、民族等,宾语映射从结构化数据表中生成三元组的宾语,如中国、汉族、企业
家。
关系数据库的抽取难点在于对复杂表数据的处理。
链接数据需从已有的通用知识图谱的抽取出一个子集,形成领域知识图谱,通过图映射,即将通用知识图谱映射到定义好的领域知识图谱模式上,难点在于数据对齐。 - 半结构化数据抽取
分为百科类数据和普通网页数据。
百科类数据知识结构较为明确,一般以键值对的形式出现,易于抽取。
普通网页数据通用的抽取方法为包装器。

包装器是一类能够将数据从HTML网页中抽取出来,并将其还原为结构化数据的技术。主要有手工方法、包装器归纳和自动抽取三种方法。包装器归纳是一种监督学习方法,可以从已标注的数据集中学习抽取规则,应用于具有相同标记或相同网页模板的数据抽取。自动抽取是先对一批网页进行聚类,得到具有相似结构的若干聚类群,再针对每个群分别训练一个包装器,其他的待抽取网页经过包装器后会输出结构化数据。 - 非结构化数据抽取
实现非结构化数据抽取的技术被统称为信息抽取。与知识抽取的区别在于信息抽取专注于非结构化数据,而知识抽取面向所有类别的数据。文本信息抽取主要由实体抽取、关系抽取和事件抽取构成。知识图谱以图模型进行表示时,实体抽取产生的实体便是结点,关系抽取产生的关系为结点之间的连接边。
知识抽取任务
- 实体抽取
抽取文本中的原子信息,形成实体结点。
- 基于规则和词典的抽取方法
基于规则的抽取方法精度较高但召回率偏低,规则的扩展性和移植性较差,且成本较高。基于实体词典的抽取方法采用字符串匹配的方式抽取实体,匹配规则包括基于正向最大匹配方法、基于逆向最大匹配方法。受词典大小和质量影响,抽取准确率较高但无法做新词发现,且通用域的实体繁多,难以构建完备的实体词典库,配合抽取规则,可用于特定领域的实体抽取。 - 基于统计学习的抽取方法
需要预先标注部分语料,通过标注语料,利用统计方法,训练出一个可以预测文本中各个片段是否为实体的概率模型,训练出的模型可用于预测未标注数据的实体抽取。可选择隐马尔可夫模型、条件随机场模型等。
隐马尔可夫模型由初始状态概率矩阵、状态转移概率矩阵和观测概率矩阵三要素组成。
条件随机场模型是在给定一组输入随机变量条件下另一组输出随机变量的条件概率分布模型,适用于序列标注问题。 - 混合抽取方法
LSTM-CRF模型是目前实体抽取任务的主流模型。LSTM-CRF模型共有三层,分别是Word Embedding层、Bi-LSTM层和CRF层。Word Embedding层通过预训练或随机初始化生成句子中每个词的向量表示。Bi-LSTM层可以提取和利用词的上下文信息,是字符级别的特征。在接收上一层生成的向量后,Bi-LSTM模型将正向LSTM生成的向量和反向LSTM生成的向量进行拼接,得到每个词的向量形式,并将结果输入CRF层。CRF层会对从Bi-LSTM层提取到的特征及标签信息建模,并对句子中的实体做序列标注。

- 关系抽取
指从文本中抽取出两个或多个实体之间的语义关系。主流有三种:基于规则的抽取方法、监督学习方法和半监督学习方法。
- 基于规则的抽取方法
准确率高,覆盖率低,维护和移植相对困难,编写抽取模板需投入较多人力和专家知识。目前有基于触发词的关系抽取方法和基于依存句法分析的关系抽取方法。
对于基于触发词的关系抽取方法,首先需要定义一套抽取模板,模板从待抽取的文本中总结得出,如:小米科技创始人雷军;阿里巴巴创始人马云。通过这两条文本信息可以编写出基于触发词的模板:X创始人Y。触发词是“创始人”,通过触发词抽取关系,同时通过实体抽取确定关系两边的词为关系的参与实体。对于基于依存句法分析的关系抽取方法,首先通过依存句法分析器对句子进行预处理,包括分词、词性标注、实体抽取和依存句法分析等,然后对规则库中的规则进行解析(这些规则都经过人工定义),将依存分析得到的结果与规则进行匹配,每匹配一条规则即可得到一个三元组结构数据,再根据扩展规则对三元组结构数据进行扩展,进一步处理以得到相应语义关系。 - 监督学习方法
监督学习方法旨在通过部分标注数据,训练一个关系抽取器。标注数据需要同时包含关系以及相关实体对。 - 半监督学习方法
基于种子数据的启发式算法和远程监督学习算法。
基于种子数据的启发式算法需要预先准备一批高质量的三元组结构数据,以此为基础去匹配语料库中的数据,找出支持关系成立的强数据,并以此去发现更多实例,加入种子数据中,再通过新发现的实例挖掘新的特征,以此重复,直至满足预先设定的阈值。以种子库入手不断迭代,但对初始种子数据敏感,为节省时间可采用远程监督方法,利用已有的知识库对位置的数据进行标注。在没有高质量的现成标注数据的情况下,使用远程监督方法扩大标注数据是一种行之有效的方法。但远程监督不适用于多关系抽取,而是更多适用于特定关系抽取领域。
- 事件抽取
指的是从自然语言中抽取出用户感兴趣的事件信息,并以结构化的形式存储。事件通常包含时间、地点、
参与角色等属性信息,事件可能因为一个或者多个动作的产生或者系统状态的改变而发生,
不同的动作或者状态的改变属于不同的事件,如“马云担任阿里巴巴董事局主席”和“马云卸
任阿里巴巴董事局主席”就属于两个事件。事件抽取任务包括事件发现,识别事件触发词及
事件类型;事件元素抽取,抽取事件元素并判断元素扮演的角色;抽取描述事件的词组或句
子等。事件抽取分多个阶段进行,因此可以将问题转化为多阶段的分类问题。不同阶段分别
训练不同分类器,包括判断词汇是否是事件触发词的分类器;判断词组是否是事件元素的分
类器;判断元素的角色类别的分类器等。根据事件的相关定义,事件抽取任务可分为元事件
抽取和主题事件抽取两类。
- 元事件抽取
元事件表示一个动作的发生或者状态的改变往往由动词或者表示动作的名词或其他词性的词触发,它由参与该动作的主要成分构成,如人物、时间、地点等。元事件抽取主要有模式匹配和机器学习两种方法。
模式匹配即在模式指导下识别和抽取事件,可以通过人工构建,也可以通过模型自动学习生成,但基于模式的元事件抽取方法存在维护和移植困难的问题,构建成本高。
基于机器学习的元事件抽取将抽取任务转化为一个多个阶段的分类问题,每个阶段需要训练一个分类器,文本数据按照顺序进入各分类器,最后输出事件实例,核心在于分类器的构造以及特征的选择。该方法虽不依赖于语料的内容,但需要大量的训练数据,所以为了减少训练数据,可以结合远程监督方法进行事件抽取。如初始利用部分种子数据,训练一个分类器,通过bootstrapping的方式做事件抽取。 - 主题事件抽取
主题事件抽取的关键在于如何识别描述同一个主题的文档集合,并将其归并到一起。主题事件抽取分为基于事件框架的主题事件抽取和基于本体的主题事件抽取。
基于事件框架的主题事件抽取需要定义一个层次分明的框架,框架的科学定义是关键。框架的每一层代表事件的一个方面,如时间、地点等,通过框架来概括事件信息。通过事件框架对一个主题事件进行层次化表示,抽取各个方面的信息,完成主题事件的抽取。
基于本体的主题事件抽取中的本体是形式化的、对于共享概念体系的明确而又详细的说明,目标是获得领域知识,形成领域知识的共同理解。基于本体的抽取技术,需要根据本体描述的概念、关系、层次结构和实例,抽取文本中包含的事件信息,主要分为三个步骤:领域本体构建,基于领域本体的文本内容的自动标注以及基于语义标注的事件抽取。
知识挖掘
指从文本或者知识库中挖掘新的实体或实体关系,并与已有的知识相关联的过程。分为实体链接与消歧、知识的规则挖掘两部分。
实体链接与消歧
实体链接是指从自然语言文本中的实体指称映射到知识库对应的实体的过程。
由于知识库中实体繁多,容易出现同一个实体名包含多个实体或多个实体名指向同一个实体的情况,需要对实体做消歧处理。
实体链接与消歧的基本流程分为实体指称识别、候选实体生成和候选实体排序三个步骤。
- 实体指称识别
实体指称识别与知识抽取中的实体抽取相同,可以使用基于规则和词典的抽取方法,通过构建抽取模板或者实体字典来识别实体指称,也可以使用基于统计学习的抽取方法,将实体指称识别看作序列标注问题,使用经典的HMM、CRF算法解决,还可以使用如LSTM-CRF的混合抽取方法来识别文本中的实体指称。 - 候选实体生成
即由文本中识别的实体指称生成可能链接的候选实体集合,目前有三种常用的生成候选实体的方法,分别是基于实体指称字典的生成方法、基于搜索引擎的生成方法、基于实体指称表面扩展的生成方法。 - 候选实体排序
候选实体集生成后,需要对集合中的多个候选实体进行排序,筛选出实体指称真正替代的实体。按是否需要标注数据可将排序方法分为基于监督学习的排序方法和无监督学习的排序方法。基于监督学习的候选实体排序方法又可分为基于二分类模型的方法、基于排序模型的方
法和基于图的方法。无监督学习的候选实体排序方法又可分为基于向量空间模型(Vector Space Model)的方法和基于信息检索的方法。
- 知识规则挖掘
即对知识结构的挖掘,针对现有知识体系,利用部分规则,挖掘出新的知识,如挖掘新的实体、关联关系等。分为基于关联规则的挖掘和基于统计关系学习的挖掘。
- 基于关联规则的挖掘
挖掘知识库中类别与类别之间的某种潜在联系,所发现的联系可以用关联规则或者频繁项集来表示。 - 基于统计关系学习的挖掘
利用知识库中已知的三元组,通过统计关系学习,对未知三元组成立的可能性进行预测,可用于完善现有的知识图谱。该方法的输入为已知的实体集合、关系集合和三元组集合,待预测的实体对,给定关系,输出为目标实体对在给定关系下成立三元组的置信度。当预测的三元组置信度超过设定的阈值时,就可以认为关系成立,生成新的三元组。
知识存储与知识融合
知识存储
即考虑业务场景及数据规模等条件,选择合适的存储方式,将结构化的知识存储在相应数据库中的过程,能实现对数据的有效管理和计算。按存储结构可分为基于表结构的知识存储和基于图结构的知识存储。

- 基于表结构的知识存储
指将知识图谱的数据存储在二维的数据表,分为关系数据库、三元组表和类型表。
- 关系数据库
表中的每一列称为一个属性或字段,用来描述实体集的某个特征。每一行表示一个元组,由一个实体的相关属性的取值构成,可相对完整地描述这个实体。 - 三元组表
以资源描述框架三元组为单元进行存储,三元组表分为三列,分别代表三元组中Subject、Predicate、Object三个元素,每一行代表一组三元组信息,为(实体,关系,实体)或(实体,属性,属性值)。该存储方式简单直接,扩展性强,但是由于图谱数据全部存储在一张表中,查询、修改、删除等操作的开销较大。 - 类型表
在构建数据表时,考虑了知识图谱的类别体系。每个类型的数据表只记录属于该类型的特有属性,而不同类别的公共属性则保存在上一级类别对应的数据表中,下级表继承了上级表的所有属性。但当数据的类型较多时,难以对大量的数据表进行管理。
- 基于图结构的知识存储
即利用图数据库对知识图谱中的数据进行存储。图数据库是一个使用图结构进行语义查询的数据库。所谓语义查询,即允许进行关联和上下文性质的查询和分析,可以利用数据中包含的语法、语义和结构信息来检索显式和隐式派生的信息。数据模型主要以结点和边来体现,也可以处理键值对。
图数据库是一种可视化的NoSQL数据库,支持数据的增加、删除、查询、修改等操作。优点是可以简单快速检索难以建模的包含复杂层次结构的数据。
- 资源描述框架
也称RDF,是一种三元组数据模型,每一份知识可以被分解为三元组的(Subject,Predicate,Object)形式,也可通过图来展示。RDF图由结点和边组成,图中的内容由一系列三元组填充,在RDF图中表征为(结点,边,结点)的形式,资源对应为结点,并通过边将不同的资源连接起来形成语义网,前面2.1节中的图2-1就展示了一个RDF图。值得注意的是,RDF是一种数据模式,而不是序列化格式,具体的存储表示形式可以为XML、Turtle或N-Triples。 - 属性图
也称带标签的属性图,由一组结点、关系、属性和标签组成。结点和关系都可以通过键值对的形式存储属性,结点之间相互独立,每个结点可能包含零个、一个或多个标签,具有相同标签的结点属于同一类型。关系通过边表示,每一条边都是有向边,分别连接起始结点和终止结点,因此属性图也是一种有向图模型。

- 超图
是一种广义上的图,它的一条边可以连接任意数量的结点,超图的边称为超边,连接的结点用集合表示。由于超边可以连接两个以上的结点,因此超图可以解决标签网络中一条边包含多个结点的问题,也可以解决由简单图构成的图谱中的共指消解和分割等问题。

知识融合
通过高层次的知识组织,使来自不同知识源的知识在同一框架规范下进行异构数据整合、消歧、加工、推理验证、更新等步骤,达到数据、信息、方法、经验以及人的思想的融合,形成高质量的知识库。
由于通过知识抽取和挖掘获取的结果数据中包含大量冗余信息与错误信息,需要进行清理和整合;以及知识来源渠道众多,存在数据重复、质量参差不齐、关联不明确等问题。
分为概念层知识融合和数据层知识融合。
- 概念层知识融合
概念层知识融合就是将每个知识源可能使用的不同的分类体系和属性体系统一为一个全局的体系。本体匹配是概念层知识融合的主要任务之一。本体匹配,是指建立来自不同本体的实体之间的关系,这些关系可以是实体间的相似值、模糊关系等。本体匹配的研究重点是如何发现异构本体间的匹配关系,这是实例共享、查询重写、本体集成等应用的基础。
- 基于文本的方法
通过本体的文本描述信息匹配本体。可以抽取两个本体的描述信息,通过计算相似度衡量两个本体是否匹配。可以分为基于名称的方法和基于文档的方法。基于名称就是通过计算名称在词形或词义上的相似度来匹配本体,基于文档就是将对概念结点的描述信息看作文档,然后计算文档之间的相似性来匹配本体。 - 基于结构的方法
利用本体概念间的结构信息来发现匹配,结构信息包含概念的上下位、同位相邻结点等信息。 - 基于实例的方法
通过比较两个概念本体的实例数量来进行匹配。 - 基于背景知识的方法
通过查询外部资源发现匹配的本体。 - 基于逻辑推理的方法
对本体网络的语义知识进行逻辑推理,发现未匹配的本体,提高匹配的准确性。
- 数据层知识融合
- 实体对齐
也称实体匹配或实体解析,是判断相同或不同数据集中两个实体是否指向真实世界中同一对象的过程。
分为成对实体对齐和集体实体对齐。
知识检索与知识推理
知识检索
通过某些条件或关键词,通过对知识图谱进行查询,返回相关信息。不仅仅返回数据列表,还以结构化形式返回信息。
- 基于查询语言的知识检索
- SPARQL
RDF是一种带标签的有向图数据格式,而SPARQL是一种用于查询RDF信息的查询语言,主要功能为访问、查询和修改由RDF存储的图数据。查询结果以集合或RDF图等多种格式返回。 - Cypher
声明式数据库查询语言,允许对关系数据库进行表示、查询和更新。
MATCH子句是大多数Cypher查询的核心,用于描述搜索的模式的结构,其主要基于关系来构建。 - Gremlin
功能性的数据流语言,能在需要查询的图数据上简洁地表达复杂的遍历。
- 语义搜索
语义搜索可以让用户的输入尽可能地接近自然语言,同时在理解这些语言的基础上返回更加精确的答案。语义搜索借助知识图谱的表示与表达能力来挖掘用户需求与数据之间的内在关联。同时,相比于传统的查询方法,语义搜索可以理解和完成更复杂的查询,并给出更精确的结果。
知识推理
推理是从已知地知识当中推断出尚未拥有的知识的过程。
一次完整的推理由大前提、小前提和结论组成。可以将大前提和小前提看作已有的知识,而结论则是需要通过推理得到的新知识。

浙公网安备 33010602011771号