表格检测识别技术面临的挑战和发展趋势
posted @ 2023-06-30 09:56
posted @ 2023-06-30 09:56
posted @ 2023-06-29 14:14
posted @ 2023-06-27 14:41
数字经济快速发展的背后,全球数据总量呈现出爆发式增长趋势。智能文档处理(IDP)技术能够高效地从多格式文档中捕捉、提取和处理数据,帮助机构和企业大幅提升文档处理效率,节约时间和人力成本。近期,合合信息智能文字识别产品通过中国信息通信研究院(以下简称“中国信通院”)“可信AI—智能文档处理系统”评估工作,并获得“5级”评定。据悉,“5级”为该模块最高评定等级。
阅读全文
posted @ 2023-06-21 12:43
基于整个表格内容进行的表格分类、单元格分类、以及表格信息抽取等任务,这是当前表格识别研究的热门领域之一。
阅读全文
posted @ 2023-06-21 12:14
近期,2023年度视觉与学习青年学者研讨会 (Vision And Learning SEminar, VALSE) 圆满落幕。会议由中国人工智能学会、中国图象图形学学会主办,江南大学和无锡国家高新技术产业开发区管理委员会承办。超五千名专家学者、知名高校师生以及来自OPPO、华为、百度、合合信息等科技企业的研发人员齐聚大会,共探计算机视觉、图像处理、模式识别与机器学习前沿技术的发展与应用。
阅读全文
posted @ 2023-06-16 14:27
《文档图像篡改检测标准》将为文档图像内容安全提供可靠保障,助力新时代AI安全体系建设。作为牵头方,中国信通院表示,《文档图像篡改检测标准》将基于产业现状,围绕“细粒度”视觉差异伪造图像鉴别、生成式图像判别、文档图像完整性保护等行业焦点议题,凝聚行业共识,以期为行业提供有效指引。
阅读全文
posted @ 2023-06-15 16:36
表格识别的研究主要涉及两个方面,一方面是对单元格内的文本进行识别,这一步通常是在确定单元格区域后,利用较为稳定的光学字符识别方法(OCR)来实现,这一方面不是表格识别研究的重点,不在此展开;另一方面是基于整个表格内容进行的表格分类、单元格分类、以及表格信息抽取等任务,这是当前表格识别研究的热门领域之一。下文会对表格信息抽取进行展开讲述。
阅读全文
posted @ 2023-06-12 09:48
论文提出了一种新的表格结构识别方法,它包含两个有效的组件:一个基于SepRETR的分割线预测分割模块和一个基于关系网络的用于跨行单元格恢复的单元格合并模块。与以往基于图像分割的分割线检测方法相比,基于SepRETR的分割线回归方法可以在不依赖启发式mask-to-line模块的情况下实现更高的TSR精度。实验结果表明,所提出的先验增强的二分匹配策略可以有效地提高两阶段DETR的收敛速度。因此,论文的方法在三个公共基准SciTSR、PubTabNet和WTW测试上取得了最先进的性能。在更具挑战性的真实内部数据集中,进一步验证了论文的方法对具有复杂结构、无边界单元格、大空白空间、空白或跨行单元格以及扭曲或弯曲形状的表格的鲁棒性。
阅读全文
posted @ 2023-06-01 15:13