知识图谱加速COVID-19科研信息发现
利用知识图谱简化COVID-19研究
知识图谱是一种组织信息的方式,以便更高效地进行探索和分析。像所有图谱一样,它由节点(通常描绘为圆圈)和边(通常描绘为连接节点的线段)组成。在知识图谱中,节点通常代表实体,边则表示实体之间的关系。
2020年5月,某中心网络服务部门公开发布了COVID-19知识图谱(CKG)。该图谱组织了 COVID-19开放研究数据集(CORD-19) 中的信息。CORD-19是一个由某机构人工智能研究所领导的联盟创建的、不断增长的关于COVID-19及相关主题的学术出版物存储库。CKG为某中心的CORD-19排名和推荐系统提供了支持。
在早些时候于AACL-IJCNLP“将结构化知识与神经网络整合用于自然语言处理”研讨会上发表的一篇论文中,我们解释了如何创建CKG,并描述了几种可能的应用,包括针对特定主题的论文排名和相关论文的发现。
图谱结构如何?
该图谱包含五种类型的节点:
- 论文节点:包含论文的元数据,如标题和ID号。
- 作者节点:包含作者的姓名。
- 机构节点:包含机构的名称和位置。
- 概念节点:包含论文中出现的特定医学术语,例如布洛芬、心功能不全和哮喘。
- 主题节点:包含广泛的研究领域,例如基因组学、流行病学和病毒学。
该图谱还包含五种类型的边:
- authored_by:将论文与其作者链接起来。
- affiliated_with:将作者与其所属机构链接起来。
- associated_concept:将论文与其相关概念链接起来。
- associated_topic:将论文与其主题链接起来。
- cites:将论文链接到引用它的其他论文。
图谱是如何创建的?
CORD-19数据库中论文的标准化格式允许轻松提取标题、摘要、正文、作者、机构和引用。
为了识别概念,使用了某中心Comprehend Medical服务,该服务从文本中提取医学实体并将其分类为实体类型。例如,给定句子“腹部超声提示急性阑尾炎”,该服务会提取以下实体:腹部(解剖结构)、超声(检查治疗程序) 和急性阑尾炎(医疗状况)。
为了提取主题,使用了一种名为Z-LDA的潜在狄利克雷分配的扩展方法,该方法使用每篇论文的标题、摘要和正文文本进行训练。Z-LDA假设论文中最具特征的术语反映了某个主题,并根据该术语在整个语料库中的出现频率选择其中一个作为该主题的标签。通过这种方式生成的主题列表在医疗专业人员的帮助下最终缩减为10个主题。
应用示例:基于引用的排名
在学术界,衡量论文相关性的一个标准是引用它的出版物数量。图结构使引用计数变得容易。但它也支持自定义计数,例如处理特定主题或包含特定概念的出版物进行的引用。
相似论文引擎
给定一篇论文,相似论文引擎会检索一个包含 k 篇相似论文的列表。它使用两种不同的相似性度量,在最后一步进行组合。
一种度量使用SciBert嵌入,它建立在流行的BERT语言模型之上,但针对科学文本进行了微调。SciBert将输入句子表示为多维空间中的点,使得涉及相同科学概念的句子倾向于聚集在一起。
我们为论文的标题、摘要和正文创建独立的嵌入,然后将它们平均以生成最终的嵌入。先前的研究表明,标题嵌入可能比正文嵌入更容易区分,而正文嵌入则携带更丰富的信息。因此,选择了一种赋予两者相等权重的嵌入方案。平均嵌入在表示空间中的接近程度表明了相关论文的相似性。
第二个模型使用另一种嵌入方式,即知识图谱嵌入,它试图保留知识图谱中编码的关系。如果图中的两个实体通过一条代表关系的边连接,那么第一个实体的嵌入,加上代表该关系的向量后,应该在第二个实体位置的附近(理想情况下是精确位置)产生一个点。
为了创建知识图谱嵌入网络,使用了DGL-KE工具,该工具在某中心开发,并扩展了早期的深度图库(DGL)。
作为训练数据,从CKG中提取向量三元组 (h, r, t) 的集合,其中 h 是头实体,r 是关系类型,t 是尾实体。这些三元组是正面的训练样本。负面样本是通过随机替换现有三元组的头或尾实体来合成的。
使用这些样本,训练模型以区分错误链接和真实链接。结果是为图中的每个节点生成一个嵌入。
在此过程结束时,将语义嵌入和知识图谱嵌入连接起来,创造一个新的、更高维度的表示空间。通过计算该空间中前k个最接近的向量(余弦距离),即可获得前k篇最相似的论文。
鉴于缺乏论文推荐的基准事实,通过分析性的定量和定性指标来评估该算法。这些指标包括但不限于流行度分析、源论文与推荐论文之间的主题交集、低维聚类和摘要比较。关于方法的更多信息,可以参阅某中心博客上的两篇文章:“使用某中心 Neptune、某中心 Comprehend Medical 和 Tom Sawyer Graph Database Browser 探索COVID-19科学研究”以及“构建和查询某中心 COVID-19知识图谱”。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)
公众号二维码

公众号二维码


浙公网安备 33010602011771号