图数据库架构论文获最佳行业论文奖
图数据库架构论文荣获最佳行业论文奖
在标准关系型数据库以关联表存储数据的同时,图数据库将数据存储于图中——其中边表示数据项之间的关系。图数据库深受用户青睐,广泛应用于统一客户视图、欺诈检测、推荐系统和安全领域等场景,这些场景需要建立数据关联并快速遍历连接关系。某机构提供的图数据库服务专为可扩展性和高可用性设计,支持用户在毫秒级查询数十亿关系。
标签属性图数据模型
标签属性图(LPG)数据模型是构建图应用的主流选择。LPG通过三个基本要素对图形化数据进行建模:节点、边和属性。例如在金融欺诈场景中,节点显示为绿色圆圈,边表示为连接节点的有向箭头,属性则封装于橙色框内。标识为1的节点标记为"客户",携带两个属性:字符串值的姓名"Jane Doe"和客户ID。节点1和2均连接到代表共享账户的节点3,该节点具有固定IBAN号码;两条边标记为"拥有"标签以明确关系性质。与顶点类似,边也可承载属性,本例中的since属性将2021-03-05指定为所有权起始日期。
关系型与图模式差异
图数据库与关系型数据库的关键区别在于:关系型数据库需要预先定义模式且难以修改,而图数据库不需要显式模式定义。关系模型中的模式级信息(表和属性名称)在图数据库中作为数据本身的一部分呈现。通过插入或更改节点标签、边标签和属性名称等图元素,可以隐式扩展或修改模式,无需执行繁琐的模式操作(如ALTER TABLE命令)。
例如在图数据库中,可随时添加带有新标签"认识"的边来连接代表Jane Doe和John Doe的节点,或引入带有新标签(如金融交易)的节点。这类扩展在关系型示例模式中需要操作表结构。缺乏显式模式是降低数据建模和应用构建门槛的关键差异点:遵循按需付费模式,构建新应用的图应用开发者可以从少量数据起步,随着应用演进不断插入新节点类型、属性和互联边,而无需维护显式模式。
模式演化过程
虽然这有助于提升图应用构建的初始速度,但在图应用全生命周期中,从隐式模式转向显式模式的需求逐渐显现。当数据库填充初始(通常尚未完善)版本的图数据后,便产生了对灵活模式支持的需求。
在此阶段,模式主要发挥描述性作用:了解最重要的节点/边标签及其属性可帮助应用开发者预判数据内容并指导查询编写。随着应用生命周期推进,图数据模型趋于稳定,开发者可能受益于更严格的规定性模式方法,该方法能强力断言图中的形态和逻辑不变性。
PG-Schema创新方案
基于这些需求,SIGMOD论文提出了名为PG-Schema的数据定义语言(DDL),旨在向用户提供全方位的模式灵活性。该方案通过GRAPH TYPE定义包含六个要素:
- 前三年引入节点类型(person、customer、account)描述图中节点的结构约束
- 边类型基于节点类型指定连接节点的边结构和类型
- 最后两行指定超越图结构的额外约束(KEY约束和所有权约束)
STRICT关键字强制要求图中所有元素遵守图类型体中定义的类型,且满足所有约束。这相当于实现了模式优先范式,具有最大规定性并强约束图结构。为适应灵活和部分模式用例,PG-Schema提供LOOSE关键字作为STRICT的替代方案,允许存在未明确定义的节点和边类型。
类似STRICT与LOOSE的机制体现在语言不同层面:例如OPEN关键字可用于部分或完全指定特定顶点标签可携带的属性集(如要求Person标签节点必须具有name属性,但可包含任意其他未声明属性)。这些机制产生的灵活性使部分模式的定义变得容易,并可逐步调整优化以满足模式演化需求。
PG-Schema不仅提出了具体的图模式和约束语言方案,更致力于提升行业对标准化图模式方法的重视。论文中的概念和思想由图形领域主要企业和学者共同开发,目前正在推进相关概念的标准化进程。未来版本的GQL标准预计将包含丰富DDL,并可能采纳论文提出的概念和思想。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
公众号二维码