常用的表格检测识别方法——表格内容识别方法
基于整个表格内容进行的表格分类、单元格分类、以及表格信息抽取等任务,这是当前表格识别研究的热门领域之一。 阅读全文
posted @ 2023-06-21 12:14 合合技术团队 阅读(157) 评论(0) 推荐(0)
基于整个表格内容进行的表格分类、单元格分类、以及表格信息抽取等任务,这是当前表格识别研究的热门领域之一。 阅读全文
posted @ 2023-06-21 12:14 合合技术团队 阅读(157) 评论(0) 推荐(0)
近期,2023年度视觉与学习青年学者研讨会 (Vision And Learning SEminar, VALSE) 圆满落幕。会议由中国人工智能学会、中国图象图形学学会主办,江南大学和无锡国家高新技术产业开发区管理委员会承办。超五千名专家学者、知名高校师生以及来自OPPO、华为、百度、合合信息等科技企业的研发人员齐聚大会,共探计算机视觉、图像处理、模式识别与机器学习前沿技术的发展与应用。 阅读全文
posted @ 2023-06-16 14:27 合合技术团队 阅读(129) 评论(0) 推荐(0)
《文档图像篡改检测标准》将为文档图像内容安全提供可靠保障,助力新时代AI安全体系建设。作为牵头方,中国信通院表示,《文档图像篡改检测标准》将基于产业现状,围绕“细粒度”视觉差异伪造图像鉴别、生成式图像判别、文档图像完整性保护等行业焦点议题,凝聚行业共识,以期为行业提供有效指引。 阅读全文
posted @ 2023-06-15 16:36 合合技术团队 阅读(107) 评论(0) 推荐(0)
表格识别的研究主要涉及两个方面,一方面是对单元格内的文本进行识别,这一步通常是在确定单元格区域后,利用较为稳定的光学字符识别方法(OCR)来实现,这一方面不是表格识别研究的重点,不在此展开;另一方面是基于整个表格内容进行的表格分类、单元格分类、以及表格信息抽取等任务,这是当前表格识别研究的热门领域之一。下文会对表格信息抽取进行展开讲述。 阅读全文
posted @ 2023-06-12 09:48 合合技术团队 阅读(206) 评论(0) 推荐(0)
论文提出了一种新的表格结构识别方法,它包含两个有效的组件:一个基于SepRETR的分割线预测分割模块和一个基于关系网络的用于跨行单元格恢复的单元格合并模块。与以往基于图像分割的分割线检测方法相比,基于SepRETR的分割线回归方法可以在不依赖启发式mask-to-line模块的情况下实现更高的TSR精度。实验结果表明,所提出的先验增强的二分匹配策略可以有效地提高两阶段DETR的收敛速度。因此,论文的方法在三个公共基准SciTSR、PubTabNet和WTW测试上取得了最先进的性能。在更具挑战性的真实内部数据集中,进一步验证了论文的方法对具有复杂结构、无边界单元格、大空白空间、空白或跨行单元格以及扭曲或弯曲形状的表格的鲁棒性。 阅读全文
posted @ 2023-06-01 15:13 合合技术团队 阅读(571) 评论(0) 推荐(0)
为帮助农商行更加系统、高效地进行客户拓展、风险控制,合合信息旗下启信宝企业端产品“启信慧眼”近期发布了“农商行数字化转型方案”,用“网格化营销”帮助银行精准获客,助力农商行加速数字化转型进程,更好地服务广大小微企业。 阅读全文
posted @ 2023-05-31 16:10 合合技术团队 阅读(31) 评论(0) 推荐(0)
表格结构识别是表格区域检测之后的任务,其目标是识别出表格的布局结构、层次结构等,将表格视觉信息转换成可重建表格的结构描述信息。这些表格结构描述信息包括:单元格的具体位置、单元格之间的关系、单元格的行列位置等。在当前的研究中,表格结构信息主要包括以下两类描述形式:1)单元格的列表(包含每个单元格的位置、单元格 的行列信息、单元格的内容);2)HTML代码或Latex代码(包含单元格的位置信息,有些也会包含单元格的内容)。 阅读全文
posted @ 2023-05-24 10:24 合合技术团队 阅读(443) 评论(0) 推荐(0)
本文介绍了一种利用可变形transformer对文档图像进行表格检测的半监督方法。该方法通过将伪标签生成框架集成到一个简化的机制中,减轻了对大规模注释数据的需要,并简化了该过程。同时生成伪标签产生了一个被称为“飞轮效应”的动态过程,随着训练的进行,一个模型不断改进另一个模型产生的伪边框。在该框架中,使用两个不同的模块学生和教师,对伪类标签和伪边界框进行了改进。这些模块通过EMA功能相互更新,以提供精确的分类和边界框预测。结果表明,当应用于TableBank和PubLayNet训练数据的10%、30%和50%时,该方法的性能超过了监督模型的性能。此外,当对PubLayNet的10%标记数据进行训练时,该模型的性能与当前基于cnn的半监督基线相比较。在未来,作者的目标是研究标记数据的比例对最终性能的影响,并开发出以最小数量的标记数据有效运行的模型。此外,作者还打算采用基于transformer的半监督学习机制来进行表结构识别任务。 阅读全文
posted @ 2023-05-19 11:08 合合技术团队 阅读(416) 评论(1) 推荐(1)
表格检测识别一般分为三个子任务:表格区域检测、表格结构识别和表格内容识别。本章将围绕这三个表格识别子任务,从传统方法、深度学习方法等方面,综述该领域国内国外的发展历史和最新进展,并提供几个先进的模型方法。 阅读全文
posted @ 2023-05-18 12:19 合合技术团队 阅读(689) 评论(0) 推荐(0)
近日,中国图象图形大会(CCIG 2023)(简称“大会”)在苏州圆满落幕。本届大会以“图象图形·向未来”为主题,由中国科学技术协会指导,中国图象图形学学会主办,苏州科技大学承办,特邀谭铁牛院士、赵沁平院士、吴一戎院士等百余位国内外知名学者,来自代表企业的技术专家,共话图像图形学术研究与技术创新趋势,共谋行业新发展。 阅读全文
posted @ 2023-05-17 15:24 合合技术团队 阅读(174) 评论(0) 推荐(0)