知识图谱第三方工具

DeepKE

![alt]( https://img-blog.csdnimg.cn/ff227fdca4c647fdb99d9e20124af3f4.png?x-oss-process=image/watermark ,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA5b-N6ICF44Gu5Lmx5aSq6YOO,size_20,color_FFFFFF,t_70,g_se,x_16)
DeepKE 是一个基于深度学习的开源中文知识图谱抽取框架，支持低资源、长篇章的知识抽取工具，支持命名实体识别、关系抽取和属性抽取功能。 ![alt]( https://img-blog.csdnimg.cn/136221bf336b481a9815d733ad58a887.png?x-oss-process=image/watermark ,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA5b-N6ICF44Gu5Lmx5aSq6YOO,size_20,color_FFFFFF,t_70,g_se,x_16)

DeepKE为三个知识抽取功能（命名实体识别、关系抽取和属性抽取）设计了一个统一的框架
可以在不同场景下实现不同功能。比如，可以在标准全监督、低资源少样本和文档级设定下进行关系抽取
每一个应用场景由三个部分组成：Data部分包含Tokenizer、Preprocessor和Loader，Model部分包含Module、Encoder和Forwarder，Core部分包含Training、Evaluation和Prediction

OpenUE

OpenUE主要架构

![alt]( https://img-blog.csdnimg.cn/a89c77c448bf44cd93c19431910ead65.png?x-oss-process=image/watermark ,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA5b-N6ICF44Gu5Lmx5aSq6YOO,size_20,color_FFFFFF,t_70,g_se,x_16)

1、models 模块

其存放了我们主要的三个模型，针对整句的关系识别模型，针对已知句中关系的命名实体识别模型，还有将前两者整合起来的推理验证模型。

2、lit_models 模块

其中的代码主要继承⾃pytorch_lightning.Trainer。其可以⾃动构建单卡，多卡，GPU,TPU 等不同硬件下的模型训练。

3、data 模块

data中存放了针对不同数据集进⾏不同操作的代码。使⽤了transformers库中的tokenizer先对数据进⾏分词处理再根据不同需要将数据变成我们需要的features。

数据形式(json)

![alt]( https://img-blog.csdnimg.cn/6c388da9c9974a26a32ef0af13afbde0.png?x-oss-process=image/watermark ,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA5b-N6ICF44Gu5Lmx5aSq6YOO,size_20,color_FFFFFF,t_70,g_se,x_16)

deepdive

deepdive是由斯坦福大学InfoLab实验室开发的一个开源知识抽取系统。它通过弱监督学习，从非结构化的文本中抽取结构化的关系数据。是目前人工智能学习领域的一个热门项目。原文见http://deepdive.stanford.edu/

DeepDive是一个从暗数据（dark data）中提取价值的系统。

与暗物质（dark matter）一样，暗数据是隐藏在文本、表格、图形和图像中的大量数据，缺乏结构，因此基本上无法通过现有软件处理。

DeepDive通过从非结构化信息（文本文档）创建结构化数据（SQL表）并将这些数据与现有的结构化数据库集成，帮助揭示暗数据。

DeepDive用于提取实体之间复杂的关系，并对涉及这些实体的事实进行推断。

DeepDive帮助用户处理各种各样的暗数据，并将结果放入数据库。

有了数据库中的数据，人们可以使用各种标准工具来使用结构化数据；例如，可视化工具（如Tableau）或分析工具（如Excel）。

参考资料

Protégé

![alt]( https://img-blog.csdnimg.cn/5c5cee0535434080a252ef546485902c.png?x-oss-process=image/watermark ,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA5b-N6ICF44Gu5Lmx5aSq6YOO,size_20,color_FFFFFF,t_70,g_se,x_16)

本体编辑器
基于RDF(S)，OWL等语义网规范
图形化界面
提供了在线版本——WebProtégé
适用于原型构建场景

Protégé 的不足：

基本只提供单人编辑，在线版本的并发功能支持也不完善；并发编辑时需要通过文件共享来实现；
因为基于单机构建，因此对大数据量支持不够，会出现内存溢出；
不支持时态、复杂事件、业务规则等的建模；
完全依靠人工，难以实现与知识图谱构建（半）自动化过程的交互。

建模预期成果

![alt]( https://img-blog.csdnimg.cn/cf2b07007f134a59b48684486cfbc04e.png?x-oss-process=image/watermark ,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA5b-N6ICF44Gu5Lmx5aSq6YOO,size_20,color_FFFFFF,t_70,g_se,x_16)
![alt]( https://img-blog.csdnimg.cn/96274cacc43845cb858ab9d57d82dcf1.png?x-oss-process=image/watermark ,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA5b-N6ICF44Gu5Lmx5aSq6YOO,size_13,color_FFFFFF,t_70,g_se,x_16)

知识图谱本体建模工具Protege使用教程

Falcon-AO

Falcon-AO是一个自动的本体匹配系统,已经成为RDF(S)和OWL所表达的Web本体相匹配的一种实用和流行的选择。编程语言为Java。其结构如下图所示：

![alt]( https://img-blog.csdnimg.cn/e2c645fcf4254d93b643590678e1571c.png?x-oss-process=image/watermark ,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA5b-N6ICF44Gu5Lmx5aSq6YOO,size_20,color_FFFFFF,t_70,g_se,x_16)

此处主要介绍它的匹配算法库，其余部分可查看官方文档。

匹配算法库包含V-Doc、I-sub、GMO、PBM四个算法。其中V-Doc即基于虚拟文档的语言学匹配，它是将实体及其周围的实体、名词、文本等信息作一个集合形成虚拟文档的形式。这样我们就可以用TD-IDF等算法进行操作。I-Sub是基于编辑距离的字符串匹配，这个前面我们有详细介绍。可以看出，I-Sub和V-Doc都是基于字符串或文本级别的处理。更进一步的就有了GMO，它是对RDF本体的图结构上做的匹配。PBM则基于分而治之的思想做。

计算相似度的组合策略如下图所示： ![alt]( https://img-blog.csdnimg.cn/7581d38b736b471ab270256195d535f6.png?x-oss-process=image/watermark ,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA5b-N6ICF44Gu5Lmx5aSq6YOO,size_20,color_FFFFFF,t_70,g_se,x_16)
首先经由PBM进行分而治之，后进入到V-Doc和 I-Sub ，GMO接收两者的输出做进一步处理，GMO的输出连同V-Doc和I-Sub的输出经由最终的贪心算法进行选取。

知识图谱之知识融合知识图谱入门 (六) 知识融合

转载

posted @ 2022-07-06 00:10 元気森林阅读(1747) 评论(0) 收藏举报

刷新页面返回顶部

-402