从识别字符到理解结构,“树模型”让AI“看懂”复杂手写数学公式
论文名称:A tree-based model with branch parallel decoding for handwritten mathematical expression recognition
作者:Zhe Li, Wentao Yang, Hengnian Qi, Lianwen Jin, Yichao Huang, Kai Ding
发表期刊 :Pattern Recognition (Volume 149, 2024)
目录:
一、背景与问题提出
手写数学表达式识别是一项具有高度挑战性的视觉—语言理解任务,其难点主要来源于数学表达式本身所具有的结构复杂性与表达多样性。与普通文本不同,数学表达式中的符号数量庞大,且符号之间并非简单的线性排列,而是通过上下标、分式、根式等形式构成复杂的二维空间关系。这种“非线性、层级化”的空间结构使得识别过程不仅需要准确区分单个符号,还必须正确理解符号之间的相对位置与组合关系,从而显著提高了整体识别难度。
与此同时,手写数学表达式在尺度和形态上呈现出高度多样性。不同符号在尺寸、笔画粗细以及空间分布上差异明显,同一表达式中也可能同时包含大尺寸的主符号和小尺寸的上下标符号。这种多尺度特性使得单一尺度的特征提取方式难以兼顾全局结构与局部细节,因此如何有效建模多尺度特征成为该领域亟需解决的关键问题。现有研究通常借助多尺度编码和数据增强策略来缓解这一挑战,但仍存在表达能力不足的问题。
此外,标注数据的稀缺性与书写风格的多样性进一步制约了模型性能。高质量的手写数学表达式标注成本较高,公开数据集规模有限,而不同书写者在符号形态、连笔方式和空间布局上的差异又显著增加了数据分布的复杂性,导致模型在实际应用中泛化能力不足。因此,如何通过生成式方法、弱监督或半监督学习等手段扩充数据、提升模型鲁棒性,成为当前研究的重要方向。
在建模方式上,主流方法通常将数学表达式转化为 LaTeX 等线性序列进行预测,依赖 RNN 或 Transformer 等序列化解码模型。然而,这类方法的解码时间步数往往与输出序列长度直接相关,当表达式较长或结构复杂时,解码过程不仅效率低下,而且错误容易在长序列中累积,严重影响识别精度。这一“长序列注意力解码瓶颈”已成为制约现有方法实用性的核心问题之一。更为重要的是,许多现有方法主要聚焦于符号级别的识别,将结构信息隐式地交由模型学习,缺乏对数学表达式语法规则和层级结构的显式建模。这种做法往往导致识别结果在形式上虽然由合法符号组成,但在结构或语义上不符合数学语法约束,降低了结果的准确性与可解释性,也限制了模型在复杂表达式场景下的表现。
基于上述背景,《A tree-based model with branch parallel decoding for handwritten mathematical expression recognition》(以下简称“论文”)关注并尝试回答以下关键问题:
(1)如何通过减少序列解码的时间步数来缓解长序列建模带来的效率与稳定性问题;
(2)如何显式地建模符号之间的空间关系与结构信息,以提升数学表达式识别的结构准确性;
(3)以及如何充分利用这些结构信息,实现多分支或并行化的解码机制,从而在保证识别精度的同时显著提升整体推理效率与性能。
二、研究内容与创新点
针对上述提出的挑战和问题,论文提出了一种创新的解决方案,主要体现在以下几个方面。首先,设计了一种基于树结构的模型——“分支并行解码的树模型(BPD)”,通过显式建模数学表达式树中的符号及其关系,有效捕获了表达式的层级结构。该模型采用编码器–解码器架构,其中编码器利用卷积神经网络(CNN)提取图像特征,并对特征进行位置编码,以增强位置感知能力。解码器部分基于Transformer结构,通过符号预测器和关系预测器,分别识别符号及其间的空间关系。
同时,核心创新在于引入“查询构建模块”,该模块利用已预测的关系信息,构建新的解码查询,从而实现多分支的并行解码。这一设计大幅度减少了传统方法中逐个深度优先解码的长序列长度,有效缓解了长序列注意力解码的问题,从而提升了识别速度和准确性。此外,本方法还采用了“多子树节点(MCN)”标记处理多子节点的问题,实现对多分支结构的同步预测,从而更好地适应复杂的表达式结构。综上所述,本文的主要创新点在于通过显式结构建模、引入并行解码策略以及特殊的节点关系处理策略,提出了一种高效、准确且具有语法合理性的手写数学表达式识别新框架,为解决长序列解码瓶颈和结构理解不足的问题提供了有效的解决方案。
主要技术亮点包括:
- 树结构建模:充分利用数学表达式的结构特性,将表达式解析成树状结构,并逐步预测节点及其关系。
- 分支平行解码:假设不同分支之间相互独立,利用预测的关系信息,同时对多个分支进行并行解码,降低解码步骤,从而提高效率。
- 查询构建模块:动态生成新的解码查询,使得分支可以在解码过程中实现“并行处理”,减轻sequence长序列带来的性能瓶颈。
Fig.1 这张图展示了本文提出的更新型树结构模型的整体架构。该模型主要由四个核心部分组成:编码器、解码器、符号预测器以及关系预测器。此外,还引入了查询构建模块,用于实现多分支的平行解码,从而有效降低解码时间。
首先,编码器部分采用一款33层的ResNet-like卷积网络,用于从手写数学表达式图像中提取深层特征。为了增强模型的空间定位能力,编码器将位置信息编码融入到提取的特征中,使用二维正弦和余弦函数生成位置编码,并将其与特征相加,得到位置感知的特征表示。这一过程确保模型能够充分利用空间结构信息,便于后续的关系预测。
在解码阶段,模型采用基于Transformer的结构来进行符号和关系的预测。每个解码步骤t中,查询向量Qt由前一轮预测的符号或关系的嵌入向量与上一轮的解码查询拼接而成 。为了保证因果性和模型训练的效率,采用了带掩码的多头自注意力机制(masked multi-head attention)。在训练时,应用下三角掩码,避免模型看到未来信息,从而符合自回归的预测原则。
具体的多头注意力机制通过将查询、键、值分别经过不同的线性变换后,分别得到多组投影,计算每一组的加权和 。多头的输出随后拼接在一起,再通过线性层整合,提升模型的表达能力。对于输入特征,模型还进行了reshape操作,将二维空间特征展平为一维序列,使其能够适配Transformer架构。在这一基础上,模型采用了多头注意机制,结合位置编码,逐步捕获全局信息。在每一层的Transformer中,经过多头注意力后,还加入了前馈网络
,通过两层线性变换配合ReLU激活,增强模型的非线性表达。这些操作共同作用,使模型既能建模节点之间的全局关系,又能在不同尺度上捕获特征。
除了符号预测外,模型还引入关系预测器,专门用以识别节点之间的结构关系,如上下、左右等。预测结果通过线性+softmax分类器输出( ),为树结构建立明确的节点与边的关系。
最后,为了应对树的多分支情况,模型中的查询构建模块会根据已预测的符号和关系,动态生成新的查询,指导下一轮同时解码多个子分支,从而做到了“branch parallel decoding”。这一创新设计显著减少了解码的时间步数,对比传统逐步深度优先的解码,极大提高了效率和准确性。
综上所述,该模型在Transformer架构基础上,结合树结构建模和动态查询机制,有效实现了复杂数学表达式的结构化识别,兼顾效率与准确性,为手写数学表达式识别提供了新思路。
三、主要结论
本文提出的基于树结构的分支并行解码模型(BPD),成功实现了对手写数学表达式的准确识别。该模型通过引入显式的结构预测、“查询构建模块”以及多分支并行解码策略,有效减少了传统序列解码中长序列带来的性能瓶颈,显著提升了识别速度和精度。实验结果表明,在多个公开数据集上,所提模型在表达率(ExpRate)、结构识别率(StruRate)等指标均优于现有的序列和树结构化方法,尤其在处理复杂表达式时表现出明显优势。不仅如此,该模型还具备较好的语法合理性,能够更好地遵循数学表达式的结构规则。

Table 1验证了所提出的树结构分支并行解码模型(BPD)在不同数据集上的优越性能,显示其在实际应用中具有较强的泛化能力和实用价值。该技术通过显式预测符号关系和多分支并行解码,有效提高了识别准确率,从而突破了传统序列解码在处理复杂表达式时的瓶颈。Table 2进一步证明了该模型在应对不同结构复杂度的表达式中,都表现出更优的识别效果,尤其在结构复杂度较高的情形下,显示出模型的鲁棒性和稳定性。这一技术创新确保了模型在复杂场景下的优异表现。Table 3强调了所提的多分支并行解码机制相较于深度优先的树结构解码方式,在识别速度和性能方面的显著提升,充分验证了分支并行解码技术在缩短解码时间和提升识别效率中的关键作用。最后,Table 4对比了我们的方法与先前先进的树结构方法,结果表明本技术在整体识别性能和结构理解能力方面具有明显优势,有效推动了手写数学表达式识别技术的发展,展示了其在提升系统性能和实际应用中的巨大潜力。
总体而言,本文的研究不仅提升了手写数学表达式识别的性能,也为基于结构的表达式解析提供了新的技术思路,有望在实际应用中推广,为数学教育、科学计算等领域的发展提供有力的技术支持。
四、产品应用
为应对教育、科研及专业文档数字化中对数学公式精准识别的迫切需求,合合信息将手写数学表达式识别技术深度融入至公司产品矩阵,实现了技术研发从实验室到产业应用的跨越。
1. 智能文本处理企业级AI产品线——TextIn
基于本文提出的数学表达式识别模型,TextIn 企业级智能文本处理平台实现了对扫描文档及手写内容中数学公式的高效、精准识别,并可将识别结果结构化输出为标准化数学表达形式,为后续的数学内容理解、编辑、检索与分析等应用提供稳定可靠的底层能力支撑。
该能力可广泛应用于教育机构试题库建设、科研论文与学术资料处理以及各类专业文档管理场景,能够自动提取并还原符号密集、结构复杂的数学公式,显著提升数学内容的数字化水平与结构化处理效率,体现了本文研究成果在真实业务环境中的应用价值。
图说:TextIn识别数学试卷手写公式
2. AI错题学习管理工具——蜜蜂试卷
蜜蜂试卷是合合信息面向K12学生及家长推出的AI移动端智能错题学习助手,支持手写体试卷智能识别、AI批改、错题分析及 “举一反三”的互动学习功能。基于数学表达式识别技术,蜜蜂试卷支持学生手写数学作业的自动识别与解析,系统能够将用户提交的手写数学答案快速、准确地转换为 LaTeX 或结构化数学数据,为自动评分、步骤分析与错误诊断提供可靠输入基础,显著提升作业批改与反馈效率。
总体而言,本文提出的方法在数学表达式识别任务中展现出显著优势,尤其在处理结构复杂、层级关系丰富的数学公式时,具备更高的准确性与稳定性。结合公司现有产品矩阵,该技术可在文本处理、学术研究与教育信息化等领域实现更加智能、高效的内容处理方案,为教育数字化与智能化教学提供关键技术支撑。这不仅有效提升了产品的技术竞争力,也与未来智能教育与智慧办公的发展趋势高度契合。
浙公网安备 33010602011771号