NeurIPS 2025!电子科大同济等提出Table2LaTeX-RL:表格转 LaTeX 精准度再突破


论文标题:Table2LaTeX-RL: High-Fidelity LaTeX Code Generation from Table Images via Reinforced Multimodal Language Models
作者团队:电子科技大学、浙江实验室科学数据枢纽研究中心、同济大学
发布时间:2025年9月22日
✅Lab4AI平台提供AI导读和AI翻译等工具,辅助论文阅读。
⭐研究背景
在科学文档与技术报告的自动化处理过程中,表格作为数据呈现与结构化表达的重要形式,其准确重建对于文档数字化具有关键意义。现有的表格识别方法多聚焦于生成 HTML 结构,难以满足学术出版中对版式、语法及数学内容精度的严格要求。特别是对于包含多级表头、复杂合并单元格及符号表达的表格,现有系统往往在结构一致性和可编译性方面表现不足。因此,如何从表格图像中直接生成语法正确、视觉一致的 LaTeX 代码,成为表格理解领域的核心挑战。
⭐核心创新
提出一个基于强化多模态大语言模型的高保真表格生成框架:Table2LaTeX-RL,旨在实现表格图像到 LaTeX 代码的精确映射。
⭐主要创新点
- 大规模数据构建:构建首个超过 120 万对表格图像–LaTeX 源代码的高质量训练数据集,依据结构复杂度划分为简单、中等与复杂三级,为模型提供了全面的结构学习基础。
- 双重奖励强化学习策略(VSGRPO):在 Group Relative Policy Optimization(GRPO)框架下,引入结构层奖励(TEDS-Structure)与视觉层奖励(CW-SSIM)的联合优化机制,有效提升了模型对复杂表格的生成稳定性与结构保真度。
- 混合评估体系:提出结合结构相似度与视觉相似度的综合评估协议,克服传统指标仅依赖文本层面对视觉一致性缺乏刻画的问题,更准确地反映生成结果的质量。

浙公网安备 33010602011771号