• 博客园logo
  • 会员
  • 周边
  • 众包
  • 新闻
  • 博问
  • 闪存
  • HarmonyOS
  • Chat2DB
    • 搜索
      所有博客
    • 搜索
      当前博客
  • 写随笔 我的博客 短消息 简洁模式
    用户头像
    我的博客 我的园子 账号设置 会员中心 简洁模式 ... 退出登录
    注册 登录

intsig

合合信息技术团队
  • 博客园
  • 联系
  • 订阅
  • 管理

公告

上一页 1 ··· 19 20 21 22 23

2023年3月30日

一个有效的图表图像数据提取框架

摘要: 一个有效的图表图像数据提取框架 建立了可以有效地处理各种图表数据,而不需要做出启发式的假设的鲁棒 Box detector 系统;提出了一种网络来测量图例匹配阶段图例和检测元素之间的特征相似性;提供了一个关于从信息图表中获取原始表格的 baseline,并发现了一些关键的因素来提高各个阶段并发现了一些关键的因素来提高各个阶段的性能。实验结果证明了该系统的有效性。 阅读全文

posted @ 2023-03-30 15:22 合合技术团队 阅读(293) 评论(0) 推荐(2)

2023年3月22日

CSIG企业行-走进合合信息成功举行,聚焦生成式人工智能、智能文档处理前沿热点

摘要: CSIG企业行-走进合合信息成功举行,聚焦生成式人工智能、智能文档处理前沿热点 3月18日,由中国图象图形学学会(CSIG)主办,合合信息、CSIG文档图像分析与识别专业委员会联合承办的“CSIG企业行”系列活动成功举办。此次活动以“图文智能处理与多场景应用技术展望”为主题,特邀来自上海交大、厦门大学、复旦大学、中科大的知名学府的学者与合合信息技术团队一道,面向行内研究者分享图 阅读全文

posted @ 2023-03-22 15:44 合合技术团队 阅读(94) 评论(0) 推荐(0)

2023年3月21日

一个基于序列的弱监督视觉信息抽取学习框架

摘要: 一个基于序列的弱监督视觉信息抽取学习框架 一、简要介绍 视觉信息提取(VIE)近年来受到了越来越多的关注。现有的方法通常首先将光学字符识别(OCR)结果组织成纯文本,然后利用标记级实体注释作为监督来训练序列标记模型。但是,它花费大量的注释成本,可能导致标签混淆,OCR错误也会显著影响最终性能。在本文中,作者提出了一个统一的弱监督学习框架,称 阅读全文

posted @ 2023-03-21 10:11 合合技术团队 阅读(91) 评论(0) 推荐(0)

2023年3月15日

【倒计时3天】“CSIG企业行”走进合合信息,大咖解密智能文档处理背后的底层技术及AI未来展望

摘要: 【倒计时3天】“CSIG企业行”走进合合信息,大咖解密智能文档处理背后的底层技术及AI未来展望 以“图文智能处理与多场景应用技术展望”为主题,聚焦图像文档处理中的结构建模、底层视觉技术、跨媒体数据协同应用、生成式人工智能及对话式大型语言模型等热门话题,特邀来自上海交大、厦门大学、复旦、中科大的知名高校的学者与合合信息技术团队一道,以直播的形式分享文档处理实践经验及NLP发展趋势,探讨ChatGPT与文档处理未来。 阅读全文

posted @ 2023-03-15 12:19 合合技术团队 阅读(115) 评论(0) 推荐(0)

2023年3月10日

表格检测识别技术的发展历程

摘要: 表格检测识别技术的发展历程 -引言 近年来,随着计算机技术的飞速发展,越来越多的研究者开始关注表格检测识别技术。表格检测识别技术是一种利用计算机自动处理表格的技术,它可以实现从文本中检测出表格,并进行识别和提取。这种技术有助于提高文本处理的效率,为计算机辅助知识发现和知识挖掘提供了支持。 表格检测和识别技术的发展可以追溯到20 阅读全文

posted @ 2023-03-10 19:43 合合技术团队 阅读(96) 评论(0) 推荐(0)

2023年2月21日

基于深度学习的表格检测与识别技术的优势

摘要: 引言: 信息时代的高速发展导致数据的大量产生与频繁传输,单单依靠人力很难处理这些数据。依托于人工智能的兴起与发展,数据的利用变得更加高效。表格作为数据的一种重要载体,是人们为了让数据的组织形式更加标准和结构化而使用的一种数据类型。 表格的特点: 信息高度精炼集中,方便信息的检索和比较。表格被广泛用于 阅读全文

posted @ 2023-02-21 16:51 合合技术团队 阅读(323) 评论(0) 推荐(0)

2023年2月7日

复杂环境下ocr与印章识别技术理解及研发趋势

摘要: 印章识别可自动提取出印章文本,从而实现计算机替代人工审核比对,解决合同管理工作中人工审核时间成本高、人力成本高的难题,降低财税及商务合同签订过程的业务风险,使商务连接更加高效和便捷。 阅读全文

posted @ 2023-02-07 14:23 合合技术团队 阅读(1304) 评论(0) 推荐(0)

2023年2月2日

【弯曲矫正】智能文字识别技术-弯曲矫正概述

摘要: 文档总是由于纸张几何形状和捕获条件不受控制而形变。这阻碍了形变图像的信息提取,降低可读性,对数据增强和下游任务如OCR识别、版面分析与还原等任务增加难度,本文阐述了对于图像弯曲矫正的集中解决方案 阅读全文

posted @ 2023-02-02 11:29 合合技术团队 阅读(559) 评论(0) 推荐(0)

2023年2月1日

表格识别与内容提炼技术理解及研发趋势

摘要: 表格是各类文档中常见的对象,其结构化的组织形式方便人们进行信息理解和提取。表格的种类根据有无边框可以划分有线表、少线表、无线表。表格样式复杂多样,如存在背景填充、光照阴影、单元格行列合并等情况。大数据时代存在大量电子文档,应用表格识别技术能够减少表格处理时间,因此表格识别是文档理解领域的重要研究课题 阅读全文

posted @ 2023-02-01 15:43 合合技术团队 阅读(751) 评论(0) 推荐(0)

2023年1月31日

文本纠错:提升OCR任务准确率的方法理解

摘要: 错字率是OCR任务中的重要指标,文本纠错需要机器具备人类水平相当的语言理解能力。随着人工智能应用的成熟,越来越多的纠错方法被提出。 近年来深度学习在OCR领域取得了巨大的成功,但OCR应用中识别错误时有出现。错误的识别结果不仅难以阅读和理解,同时也降低文本的信息价值。在某些领域,如医疗行业,识别错误可能带来巨大的损失。因此如何降低OCR任务的错字率受到学术界和工业界的广泛关注。合合信息通过本文来讲解文本纠错技术帮助更多人解决业务问题。通常文本纠错的流程可以分为错误文本识别、候选词生成和候选词排序三个步骤。文本纠错方法可包括基于CTC解码和使用模型两种方式,下面分别对这两种纠错方式进行介绍。 阅读全文

posted @ 2023-01-31 11:26 合合技术团队 阅读(526) 评论(0) 推荐(0)

上一页 1 ··· 19 20 21 22 23
 
博客园  ©  2004-2025
浙公网安备 33010602011771号 浙ICP备2021040463号-3