Paper Reading: AutoG: Towards automatic graph construction from tabular data


Paper Reading 是从个人角度进行的一些总结分享,受到个人关注点的侧重和实力所限,可能有理解不到位的地方。具体的细节还需要以原文的内容为准,博客中的图表若未另外说明则均来自原文。

论文概况 详细
标题 《AutoG: Towards automatic graph construction from tabular data》
作者 Zhikai Chen, Han Xie, Jian Zhang, Xiang Song, Jiliang Tang, Huzefa Rangwala, George Karypis
发表会议 The Thirteenth International Conference on Learning Representations, ICLR 2025
发表年份 2025
会议等级 CCF-A
论文代码 https://github.com/amazon-science/Automatic-Table-to-Graph-Generation

作者单位:

  1. Michigan State University
  2. Amazon

研究动机

近年来,图机器学习 GML在生命科学、电子商务、社交网络等多个领域得到了广泛应用和快速发展。然而,该领域的研究重心主要集中在了开发强大的模型(如图神经网络 GNNs)上,而普遍忽略了一个关键的前提性步骤:如何从常见的、非图结构的数据格式(尤其是表格数据)中构造出适合的图。在现实的企业应用场景中,现成的、可直接用于下游任务的图数据集往往是不存在的。数据通常以表格形式存储,而表格数据本身并不天然等同于图。为了应用基于图的模型,必须首先完成从表格到图的转换。
当前的图构建过程缺乏系统性的研究和形式化的定义。现有的方法要么是基于简单启发式的,只能处理特定情况(如存在完整主外键关系的情况);要么严重依赖专家进行人工数据工程,这需要繁琐的预处理和专门的技能。这成为阻碍 GML 在工业场景中大规模、便捷应用的一个重要瓶颈。基于上述背景,本文旨在正式定义并解决从表格数据自动构建图的问题。具体拆解为以下两个方面:

  1. 缺乏专门用于形式化定义、评估和比较不同自动图构建方法有效性的数据集。理想的评估数据集应当反映现实世界图构建的复杂性,包括处理隐式关系、支持多下游任务等。
  2. 现有的自动图构建方法适用范围窄,无法应对复杂的真实数据。

因此,论文的核心目标是提出一种无需人工干预、能够自动从原始表格数据生成高质量图结构(图模式)的有效方法。这需要方法能够在巨大的可能图结构搜索空间中高效地识别高质量候选,并处理表格数据中缺失或不完整的关系。同时挖掘潜在的隐式关系,如语义相似的列、分类列诱导的关系,生成适用于不同下游任务的图结构。

文章贡献

如何从常见的表格数据中自动构建高质量、适用于下游任务的图结构,是图机器学习领域一个长期被忽视的基础性问题。首先,形式化了图构建问题的四大挑战,包括识别缺失/隐式关系、处理表类型转换、适配多任务等,并据此创建了一套涵盖 8 个真实领域、多任务的多表数据集基准。接着,本文提出了一个基于大语言模型的端到端自动图构建框架 AutoG,其核心思想是将图构建视为一个从原始表模式到目标图模式的序列决策与转换过程。该框架包含三个关键模块:输入上下文模块负责为 LLM 提供数据统计、任务描述等关键元信息;生成器模块是模型的核心,它不采用开放式生成,而是设计了基于增强链的引导生成机制,将复杂的图构建分解为四个定义明确的基本操作(如连接两列、生成新表等),并利用思维链提示引导 LLM 逐步执行这些操作,以确保生成图的有效性;判别器(预言机)模块,通过快速训练一组 GNN 模型并利用早期验证性能,高效评估所生成图模式的质量,并支持从多个候选中选择最优解。AutoG 结合了 LLM 的语义推理能力与程序化的引导约束,实现了对复杂、隐式关系的自动化发掘,其性能在多个数据集上接近人类专家。

基本概念

本文首先对表格数据和图模式的基本概念进行形式化,为理解后续的图构建问题奠定理论基础。

表格数据与模式

采用关系数据库(RDB)语言将输入表格数据定义为一个模式文件,并介绍如何用其描述图。表格数据 \(\mathcal{D}\) 包含 \(K\) 个表的数组,即 \(\mathcal{D} := \{T_{i}\}_{i=1}^{K}\)。每个表 \(T_i\) 可视为一个三元组 \((C_i, R_i, M_i)\),其中:

符号 含义
\(C_i = (C_{i,1}, \ldots, C_{i,l_i})\) 一个表示列名的字符串数组,\(l_i\) 是表 \(T_i\) 的列数
\(R_i\) 一个矩阵,其中每一行 \(R_{i,j} = (R_{i,j,1}, \ldots, R_{i,j,l_i})\) 包含表 \(T_i\) 中第 \(j\) 行的值
\(M_i = (M_{i,1}, \ldots, M_{i,l_i})\) 一个指定每列数据类型的数组

本文考虑的数据类型包括:category(分类)、numeric(数值)、text(文本)、primary_key(主键,PK)、foreign_key(外键,FK)、set(集合)、timestamp(时间戳)。对于包含 \(K > 1\) 个表的场景,表之间可能通过一组主-外键对 \(\{x_{PK}^m, y_{FK}^m\}\) 相关联,其中 \(m = 1, \ldots, M\)。本文考虑没有给定显式键关系的场景。表模式与图模式的定义如下:

模式定义 说明
表模式 将所有元信息以结构化格式(如 YAML)存储,定义了表格的元信息。
图模式 一种特殊的表模式。与普通表模式相比,图模式具有适当的列设计和完整的主-外键关系,这些特性使得从图模式转换为理想的下游任务图结构变得简单。

连接表格数据与图

基于表格数据的定义,图构建的目标是将关系型表格数据 \(\mathcal{D}\) 转换为一个图 \(\mathcal{G}\)。本文遵循现有工作,将 \(\mathcal{G}\) 视为一个异构图 \(\mathcal{G} = \{\mathcal{V}, \mathcal{E}\}\),其中包含节点集合 \(\mathcal{V}\) 和边集合 \(\mathcal{E}\)。节点和边被组织为 \(\mathcal{V} = \bigcup_{v \in V} \mathcal{V}^v\)\(\mathcal{E} = \bigcup_{e \in E} \mathcal{E}^e\)。其中,\(\mathcal{V}^v\) 表示类型为 \(v\) 的节点集合,\(\mathcal{E}^e\) 表示类型为 \(e\) 的边集合。
图构建的主要挑战在于从表格数据的模式中提取出合适的节点类型和边类型。如果简单地将每个表视为一个节点类型,并将每个 PK-FK 关系视为一个边类型,在某些情况下(例如,当两个实体被放在同一个表中时)可能会产生次优的图。此时就无法有效反映结构关系,进而影响下游任务的性能。

用于评估图构建的数据集设计

首先需要将图构建问题具体化,并为比较不同方法提供一套基准数据集。为此,作者首先识别了图构建过程中需要解决的四个关键问题,并基于这些问题挑选了来自不同领域的 8 个多表数据集。

数据集的设计空间

表格数据到图的转换有如下四个挑战(C1-C4):

序号 挑战 说明
C1 识别缺失的跨表 PK-FK/FK-FK 关系 传统方法(如 Row2Node)仅能将现成的 PK-FK 关系转为边,但现实中这些关系通常不完整,需要类似自动连接发现的技术或人工干预。与传统的连接发现(旨在合并表)不同,此处的目标是找到有利于下游任务的、恰当的边关系,更具挑战性。
C2 识别自引关系 除了跨表关系,表内也可能存在由其列诱发的有用关系。例如一个“领域”列可以诱导出有用的关系,从而应添加一个增强表。识别此类关系已被证明对推荐等任务有益。
C3 将表转换为合适的节点或边类型 如何将表转换为适当的类型,会影响下游任务性能和生成图的有效性。例如表因其包含两个外键,应被更好地建模为边类型,因为它记录了顶点之间的引用关系。
C4 为不同下游任务生成合适的图 基于同一表格数据可以定义多个任务,单一的图设计可能无法适配所有任务。此问题尚未得到充分研究,将在实验中验证,是最具挑战性的任务。

这四个挑战的灵感来自现有工作:C1 是 RDB 中的常见问题;C2 通过对比 Kaggle 原始模式与专家设计的图模式而提出;C3 源于真实数据集;C4 源于表格数据上定义的多任务。图构建的目标是从关系数据中发现对下游任务有益的关系信息,需要结合任务语义进行判断,无法仅通过以最小化冗余为目标的规范化来解决。

数据集

基于上述设计空间,作者从不同领域收集了8个数据集来评估图构建方法。数据集来源包括:

  1. 现有表格图数据集的来源(如 Outbrain)。
  2. 对现有表格图数据集的扩充(如 Stackexchange)。
  3. 为图构建改造的传统表格数据集(如 IEEE-CIS, Movielens)。

数据集信息总结如下表:
image

本文方法

针对上文提出的四个挑战,本文介绍了一种自动图构建解决方案 AutoG。其核心思路是将图构建视为从具有隐式关系的原始表模式,到具有显式关系的最终图模式的转换过程,并采用 LLM 来自动生成这些转换。

基于 LLM 的图构建框架 AutoG

受到人类数据科学家工作流程的启发,作者提出了一个包含三个模块的自动化框架:

  1. 输入上下文模块:为 LLM 提供关于输入数据的基本洞察,以辅助其决策。需要提供包括推断的列类型、数据统计摘要(样本数、唯一值数、众数、随机抽样值)、下游任务描述以及思维链示例。这些信息用于帮助 LLM 区分分类列和数值列,帮助后续边关系发现,例如唯一值数等于总样本数的列很可能是一个主键。
  2. 生成器模块:采用 LLM 作为生成器,基于输入上下文生成转换后的模式。直接让 LLM 生成结构化输出(如 YAML 格式代码)的开放式生成方法,常常会产生无效的图结构或遗漏需要多步增强的关系。为解决此问题,受函数调用思想启发,作者设计了基于增强链的引导生成,将生成过程分解为一系列基本的增强操作。
  3. 判别器模块:评估生成的图模式的有效性。该模块的挑战在于需要高效地获得性能评估,以及评估指标能合理反映图模式对下游任务的影响。采用的方案是:先通过启发式算法(Row2Node/Row2Edge)将生成的模式转换为图,然后训练一个 GML 模型进行预测。为了提高评估效率,作者探索了图压缩、采样和早期验证性能等策略。实验表明,早期验证性能能较好地估计下游任务表现,因此被 AutoG 采用。为了获得模型无关的性能评估,AutoG 使用了一组 GNN 模型(RGCN, RGAT, HGT, PNA)的平均性能作为最终评分。

整个流程下图所示,从输入上下文开始,到生成器产生增强动作,最终由判别器评估并输出反馈。
image

基于增强链的引导生成

为了解决开放式生成的缺陷,作者提出了引导生成方法。首先基于四个挑战,定义了以下四种基本增强操作:

增强操作 针对的挑战 说明
CONNECT_TWO_COLUMNS C1 在两列之间建立 PK-FK 或 FK-FK 关系。与依赖人为设定阈值的连接发现方法不同,LLM 可以利用元信息自动识别关系。
GENERATE_NEW_TABLE C2 通过移动列(不改变值)从原始表诱导出新表,可以看作从原始表中识别出多个节点或关系类型。此操作也可用于数据规范化。
REMOVE/ADD_PRIMARY_KEY C3 结合启发式方法,此操作可以改变表在图中的类型(作为节点或边)。
UNFOLD_MULTI_CATEGORY_COLUMNS C4 展开多分类列,此操作使得系统不依赖外部规范化工具。LLM 需要决定展开是否有益,并确定展开后列的数据类型。

LLM 通过查看输入上下文和针对每个操作的思维链演示,来决定执行哪些操作。作者发现,思维链提示对于生成正确的操作至关重要。生成初步动作后,增加一个“请仔细检查并修正任何错误”的自我反思步骤,可以进一步提高 LLM 生成正确动作的能力。通过设置一个空动作和最大动作数阈值(通常为 10)来决定终止。

设计预言机以生成反馈

在生成多个模式候选后,需要一个预言机来评估其有效性并选择最佳模式。尽管 LLM 能基于先验知识生成模式,但它无法定量预测不同模式对下游任务性能的影响,因此需要一个基于图模型的预言机。预言机设计的关键考量是效率评估的合理性,作者比较了多种加速评估的策略:

预言机设计 说明
完整训练 耗时最长,作为基准。
采样图 在缩小的图上训练,速度快但可能导致评估偏差。
早期验证指标 在训练早期(如 5 个 epoch 后)使用验证集性能进行评估。

实验结果表明,早期验证性能能以合理的速度(相比完整训练快约 10-16 倍)提供对下游任务性能的良好估计,因此 AutoG 在大型数据集上采用此策略加速评估。
image
为了减少对单一 GNN 模型的依赖,AutoG 最终采用一组 GNN 模型(RGCN, RGAT, HGT, PNA)的平均性能作为预言机评分。

生成多样化的候选

尽管 AutoG 能自动生成图模式,但其决策依赖于 LLM 的推理,可能无法总是生成最优结果。一个补救措施是让 LLM 生成一组候选结果,然后根据预言机的评分选择最佳方案。

AutoG 的候选变体 说明
AutoG-S 直接使用最终输出状态
AutoG-A 运行算法多次,选择预言机评分最高的候选作为最终选择

实验结果

实验设置

为了探究不同图构建方法的影响,将固定 GML 模型(使用 RGCN、RGAT、HGT、PNA 等常用异构图模型),通过比较不同图模式下模型的下游任务性能来评估图的质量。主要使用 Claude Sonnet-3.5 作为LLM 主干,并讨论了不同 LLM 的影响。对比的基线方法有:

对比方法 说明
XGBoostDeepFM 非图模型基线
TabGNN 针对表格数据的 GNN 方法
JTD with Row2Node/Edge 基于 DeepJoin 的自动连接发现方法,配合启发式图构建
专家设计的图模式 由数据工程专家设计的高质量图模式(视为性能上限)
原始图模式 基于专家模式移除由专家引入的关系,仅保留支持图构建的最小关系子集,然后用启发式方法生成关系,是一种更简单的基线

其中,JTD 和 TabGNN 的对比设定相对容易,因为它们是在原始模式的基础上进行增强,而不是从没有任何信息的原始模式开始。为防止模型通过列名捷径作弊,实验中将所有相同的列名改为不同的名称。

对比实验

下表展示了不同图构建方法的性能,AutoG 方法超越了其他自动图构建方法,性能接近人类专家水平。基于启发式的自动发现方法(如 JTD)只能应用于特殊情况,以 MAG 数据集为例,JTD 将 Cites 表的 paper_cite 列和 Writes 表的 paper_writer 列错误地列为第二相似的列对,而 AutoG 则能基于上下文元数据避免此问题。在 MAG 数据集上观察到,专家设计的图对于“年份预测”任务并非最优,甚至比原始模式更差。这证实了挑战 C4,即为不同任务需要不同的图设计。

消融实验

研究了 AutoG 的不同版本:

AutoG 变体 说明
AutoG-S 直接采用最终输出状态
AutoG-A 使用预言机从多个候选中选择最佳状态
AutoG-O 进行开放式生成

实验结果可见封闭式生成是必要的,以保证生成有效模式。预言机通常并非必需,即 LLM 仅凭先验知识就能生成好的候选,但仍存在两种失效情况:

  • 专家模式失效:例如 MAG 数据集的年份预测任务。分析发现预测论文发表地点时,基于“论文-作者-论文”元路径的标签调整同配性为 0.156,而预测“年份”时该值仅为 0.02。这可视作图数据中的异配性问题的扩展,有效的图构建算法应通过消除有害关系来解决此问题。尽管在提示中引入了思维链,AutoG 仍需依赖图预言机来处理此问题。
  • 所有方法均失效:例如 IEEE-CIS 数据集。尽管图构建过程(如数据规范化)看似合理,但其生成的图对 GML 模型性能产生了负面影响。这对应了一个更具挑战性的场景:必须推断有益的网络效应。这比同配/异配问题更具挑战性,特别是当列语义无法揭示网络效应时。
    image

AutoG 的工作机制

尽管 AutoG 表现良好,但复杂的提示设计使其工作机制难以理解。作者研究了提示中不同组件的作用及其对匿名列数据的适用性。提示组件包括:列语义信息(列名)、统计元信息、提示中给出的示例、每个操作的思维链演示。基于 MAG 构建了一个涵盖 C1-C4 挑战的合成数据集进行测试,结论可见演示是必要的,使AutoG能生成有效操作。思维链和统计信息对模式生成都至关重要,没有思维链时 LLM 只会找到平凡的增强,如列名相同的非 PK-FK 关系。列名的语义信息对 AutoG 的性能至关重要,这也是 AutoG 的一个局限性。
image

优点和创新点

个人认为,本文有如下一些优点和创新点可供参考学习:

  1. 本文定义了从表格数据自动构建图所面临的四大核心挑战,并据此构建了一套覆盖多领域、多任务的真实世界数据集,为评估该任务提供了首个标准化基准。
  2. 设计了一个名为 AutoG 的框架,它不依赖于开放式生成,而是将复杂的图构建过程分解为四个定义明确的基本操作,并通过思维链提示引导大语言模型进行序列决策,有效解决了自动生成有效图模式的难题。
  3. 通过结合引导生成与高效的预言机评估机制,AutoG 能够自动生成高质量的图模式,其在下游图学习任务上的性能超越了现有自动方法,达到了接近数据工程专家人工设计的水平。
posted @ 2026-04-14 19:01  乌漆WhiteMoon  阅读(13)  评论(0)    收藏  举报