NeurlPS2025| 告别手动制表:电子科大+之江实验室提出Table2LaTeX-RL创新性高保真表格生成方法
最近电子科技大学联合之江实验室的研究人员开发了 Table2LaTeX-RL,这是一个使用多模态语言模型和双奖励强化学习框架将表格图像转换为高保真 LaTeX 代码的系统。这种方法在复杂表上表现出卓越的性能,实现了 0.6145 的 CW-SSIM 和 0.9218 的 TEDS-Structure,同时保持了 0.9917 LaTeX 编译率。
Introduction 简介
表格是科学和技术文档的重要组成部分,为呈现定量数据、实验结果和复杂关系提供了结构化且简洁的格式。随着文档数字化变得越来越普遍,从图像自动生成表格代码的能力对于实现内容重用和高质量复制至关重要。然而,大多数现有方法专注于生成 HTML 表示 ,缺乏复杂表格所需的结构表现力和排版精度,尤其是那些具有嵌套标题、合并单元格或数学内容的表格。相比之下,LaTeX 是科学出版的标准,提供专业级表格所需的灵活性和保真度。尽管具有实际重要性,但从表格图像直接生成 LaTeX 代码的任务在之前的工作中受到的关注有限。
在这项工作中,我们研究了表格图像到 LaTeX 生成的任务,并对其挑战进行了全面分析。通过实证观察,我们发现主要的困难在于处理复杂的表格,这些表格通常很大、嵌套很深、语义丰富,结构自然适合 LaTeX,但模型很难准确预测。这些挑战既影响视觉编码器(必须提取细粒度的视觉和结构线索),也影响语言解码器(必须生成长的、语法敏感的 LaTeX 序列)。任一阶段的错误通常会导致幻觉、格式错误的输出,甚至编译错误。为了实现更细粒度的评估并更好地了解当前的研究差距,我们建议根据结构复杂性将数据集分为简单、中等和复杂子集。
为了应对这些挑战,我们利用预先训练的多模态大语言模型 (MLLM),该模型在视觉识别、跨模态推理和 LaTeX 流畅性方面表现出强大的能力。我们在从 arXiv 上的科学文档中收集的大规模图像到 LaTeX 数据集上对 MLLM 进行微调。为了进一步提高性能(尤其是复杂表的性能),我们引入了一种基于组相对策略优化 (GRPO) 的双奖励强化学习策略,称为 VSGRPO。虽然标准 GRPO 方法仅基于文本输出来优化文本生成质量,但我们更进一步:将生成的 LaTeX 代码渲染为图像,并使用 CW-SSIM 直接评估视觉保真度。这种基于图像的奖励补充了从 LaTeX 源计算的结构级奖励,使我们能够共同优化结构准确性和渲染外观。这种新颖的视觉在环强化设计显着增强了模型为结构丰富且视觉复杂的表格生成忠实、高保真 LaTeX 代码的能力。
从评估的角度来看,现有的指标是有限的。 TEDS 是一种广泛使用的基于结构的度量,对细粒度错误缺乏敏感性,并且存在 HTML 和 LaTeX 之间不匹配的问题。另一方面,渲染图像比较指标关注局部视觉相似性,但忽略全局结构正确性。为了克服这个问题,我们采用了一种混合评估策略,该策略结合了用于结构保真度的 TEDS-Structure 和用于稳健视觉相似性的 CW-SSIM。
在此框架下,我们的方法在表格图像到 LaTeX 生成任务上实现了最先进的性能,尤其是对复杂表格的改进。这证明了将 MLLM 微调与有针对性的强化学习相结合以生成高保真、可发布的表格的有效性。

图1: 演示我们提出的用于表格图像到 LaTeX 代码生成的 VSGRPO 框架。顶部部分显示了一个示例表格图像及其相应的 LaTeX 代码,代表训练中使用的输入输出对。中间部分说明了 VSGRPO 框架的工作流程。底部部分强调了双重奖励机制:通过 CW-SSIM 在模型生成的图像和真实渲染图像之间计算的视觉保真度
挑战和动机
将表格图像转换为 LaTeX 代码解决了文档处理中的几个基本挑战。传统的表格识别方法侧重于将内容提取为 HTML 格式,缺乏科学出版所需的复杂格式化功能。LaTeX 作为学术出版中的标准标记语言,提供了对表格结构、数学表达式和 HTML 无法充分表示的复杂布局的精确控制。
复杂的表格给现有方法带来了特别的困难。这些表的特点是嵌套结构、合并单元格和丰富的内容(包括数学符号),通常会导致当前方法失败或产生语法不正确的输出。作者认为这是一个关键差距,并指出,虽然现有工具可以充分处理简单表格,但科学文献中普遍存在的复杂表格仍然没有得到很好的解决。
全新大规模数据集构建
由于缺乏包含 LaTeX 表代码的公开可用的大规模数据集,我们提出了一个数据集构建管道。具体来说,我们开发了一个网络爬虫,从开放访问的 arXiv 存储库中抓取科学论文的 LaTeX 源文件。我们使用正则表达式来提取与表环境相对应的 LaTeX 代码。为了确保数据质量,我们通过删除引用、颜色设置和其他 LaTeX 控制命令来进一步清理提取的代码。通过这个过程,我们收集了一个包含 1,209,986 个表格-LaTeX 对的数据集。为了对表格复杂性进行分类,具有 2 个或更多 \multirow 或 \multicolumn 命令和 100-160 个单元格的表格被定义为中等表格,而那些超过 160 个单元格的表格被标记为复杂表格。所有其他的都被认为是简单的。在训练集中,简单表约占 94%,而中型表和复杂表各约占数据的 3%。
方法:VSGRPO 框架
如图1所示,论文的核心创新是 VSGRPO(视觉和结构引导的群体相对策略优化),这是一个双奖励强化学习框架,解决了单独监督微调的局限性。
为了使通用多模态大语言模型(MLLM)获得处理表格到 LaTeX 生成任务的初步能力,我们首先在 Table2LaTeX 数据集上对预训练的 MLLM 进行标准监督微调 (SFT)。InternVL2-1B 和 Qwen2.5-VL-3B 等模型经过训练。然而,如表 4 所示,仅 SFT 不足以完全释放模型的潜力。一个关键的限制源于teacher forcing的广泛使用,其中模型被训练为预测给定前缀的下一个标记。然而,LaTeX 代码本质上是不明确的——不同的语法形式(例如样式类的语法)可能会产生相同的视觉输出。培训监督和评估目标之间的不匹配会导致泛化效率低下,特别是对于结构复杂的表格,因此我们进一步进行了强化学习。
双重奖励强化学习
如上所述,SFT 中使用的下一个标记预测范式在对长 LaTeX 序列中嵌入的语义结构和句法依赖关系进行建模的能力方面受到限制。此外,SFT 目标仅关注文本级对齐,完全忽略了渲染的 LaTeX 输出与原始表格图像之间的视觉相似性 - 尽管视觉外观是生成质量的直接且关键的指标。然而,由于 LaTeX 渲染是不可微的操作,因此它不能直接纳入基于梯度的监督训练中。
为了解决这些限制,我们提出了一种新颖的强化微调框架,它将渲染图像反馈作为显式优化信号引入。受到组相对策略优化(GRPO)的启发,我们将其范围扩展到标准文本质量评估之外,并设计了一种双重奖励机制,共同促进结构准确性和视觉保真度。虽然传统的基于 GRPO 的方法仅专注于提高文本生成质量,但我们的框架利用了 LaTeX 代码结构及其渲染外观,提供了更加与任务一致的监督信号。我们从训练数据集中选择 5,936 个复杂表作为 VSGRPO 的训练集,其真实 LaTeX 代码包含少于 3,000 个字符,以平衡复杂性和计算可行性。
1.视觉奖励:将生成的 LaTeX 代码编译为 PDF,然后转换为 PNG 格式,以便使用 CW-SSIM(复小波结构相似性指数)与地面实况表图像进行比较。CW-SSIM 采用专门适用于二进制表图像的 Haar 小波变换。奖励为二进制:如果 CW-SSIM 超过 0.6,则为 1,否则为 0。
为了适应黑白表格图像,我们采用以下CW-SSIM计算过程:CW-SSIM算法对两张表格图像进行预处理,将它们转换为灰度,将它们调整为统一尺寸,并对齐它们的行和列。然后,它将图像划分为 2×2 像素块,并应用简化的 Haar 小波变换将每个块分解为四个子带:cA(低频近似)、cH(水平)、cV(垂直)和 cD(对角高频细节)。对于每个子带,该算法计算针对单色表优化的 SSIM 指标,结合像素级均值、方差、协方差以及稳定常数 C_1 和 C_2。最后,它对所有四个子带的 SSIM 分数进行平均,以生成综合的 CW-SSIM 指标。
2.结构奖励:生成的 LaTeX 和真实 LaTeX 都转换为 HTML 表示,然后使用 TEDS-Structure(基于树编辑距离的相似性)进行比较。该指标侧重于结构一致性,同时忽略内容差异。如果 TEDS-Structure 超过 0.9,则奖励为 1,否则为 0。
实验结果与分析
我们将 VSGRPO 与不同类别的各种解决方案进行比较。在商业和付费领域,我们根据迄今为止最强大的系统 Mathpix 对其进行评估。为了与当前的通用多模态大型模型进行比较,我们包括闭源 GPT-4o,以及开源 Qwen2.5-VL-72B 和 Intern2.5-VL-78B。对于专门的专家模型,我们与最先进的开源 LaTeX 生成系统 Nougat 进行比较。 为了更准确地评估 LaTeX 生成的正确性,我们从两个互补的角度评估模型性能:渲染图像质量和 LaTeX 源保真度。首先,我们通过将生成的 LaTeX 编译成表格图像来评估其视觉准确性。使用两个指标:编译率(反映可以使用标准 LaTeX 包成功编译的 LaTeX 输出的比例)和 CW-SSIM(量化渲染输出与真实图像之间的视觉相似性)。这些结果如表 1 所示。其次,我们评估 LaTeX 源代码本身的语义和结构正确性。为此,我们计算 TEDS-Structure(测量细胞级结构对齐)和 TEDS(另外考虑表格内容)。这些指标可以更深入地了解生成的代码捕获底层表语义的程度,并在表 2 中进行了总结。为了进一步评估我们的方法的泛化能力,我们另外在中引入的外部基准数据集(具体可见论文中介绍)上对其进行了测试,结果如表 3 所示。

表1:不同模型在三类表格上的CW-SSIM 性能以及编译率

表2:不同模型在三类表格上的TEDS 和 TEDS-Structure 性能
表 2 显示了 TEDS 和 TEDS-Structure 指标的结果。 TEDS 分数的趋势很大程度上反映了 TEDS-Structure 的趋势,尽管由于 TEDS 额外考虑了单元格内容对齐,绝对值始终较低。商业工具 Mathpix 在各种表类型中表现出相对稳定的性能,在中等复杂性表上获得了最高的 TEDS-Structure 得分 (0.8965)。在通用 VLM 类别中,Qwen2.5-VL-72B 显示出始终如一的强大结构性能,在简单表格上的 TEDS-Structure 得分最高 (0.9400)。然而,随着复杂性的增加,它的性能逐渐下降——TEDS从0.8720(简单)下降到0.8090(中)和0.7448(复杂)。相比之下,其他大型模型(例如 Intern2.5-VL-78B)在复杂表上的表现急剧下降(TEDS:0.3379),而专家模型 Nougat 几乎完全崩溃(TEDS:0.0424),揭示了结构和内容级别泛化方面的严重局限性。相比之下,我们提出的 Qwen2.5-VL-3B-VSGRPO 在所有级别的表复杂性上都取得了一致的优异结果。尽管其尺寸紧凑(3B 参数),但它的性能明显优于更大的模型,在复杂表上达到 0.8673 的 TEDS 分数(比次优模型高出 0.1225),并实现 TEDS-Structure 分数 0.9218,这是第一个在复杂表上超过 0.9 阈值的模型。这些结果强调了我们的双重奖励优化策略的有效性,该策略集成了结构和视觉监督,以实现健壮、高保真的 LaTeX 代码生成,特别是对于结构丰富且视觉复杂的表格。

表3:在外部数据集CW-SSIM和TEDS-Structure的实验比较
人工评估
为了补充自动化指标并更好地捕捉感知的视觉质量,我们对 200 个随机选择的表格(50 个简单表格、50 个中等表格、100 个复杂表格)进行了人类偏好研究,如 C 部分所示。对于每种情况,四个模型的渲染输出与真实图像一起匿名显示。多名人类评估员独立对视觉上最相似的结果进行投票,最终决定由多数投票决定。如表 4 所示,Qwen2.5-VL3B-VSGRPO 在所有难度级别上获得了最高的票数,在视觉和结构保真度方面明显优于其他模型。

表 4:人工评估结果
结论和局限性
我们的工作通过将视觉语言建模与有针对性的强化学习相结合,解决了将表格图像转换为语法正确、出版质量的 LaTeX 代码的挑战。我们利用预先训练的多模态大语言模型 (MLLM),在不同的科学表格图像语料库上对其进行微调,并通过双重奖励方案进一步增强它:一个奖励使用 TEDS-Structure 评估结构完整性,而另一个奖励通过渲染输出上的精细 CW-SSIM 测量视觉保真度。通过联合优化这些目标,该模型能够准确捕获复杂的表格布局(包括嵌套标题、合并单元格和数学表达式),并生成与原始视觉外观紧密匹配的输出。
局限:尽管 VSGRPO 有效提高了复杂表上的 MLLM 性能,但它在训练过程中引入了显着的计算开销。具体来说,每个 LaTeX 输出都必须渲染为 PDF,然后转换为 PNG 图像以进行 CW-SSIM 计算——这是一个耗时的过程,即使使用多线程,也会造成训练瓶颈。由于这种开销和有限的 GPU 资源,我们仅在 5,936 个复杂表上训练 VSGRPO。

浙公网安备 33010602011771号