一个基于序列的弱监督视觉信息抽取学习框架
摘要:        
一、简要介绍 视觉信息提取(VIE)近年来受到了越来越多的关注。现有的方法通常首先将光学字符识别(OCR)结果组织成纯文本,然后利用标记级实体注释作为监督来训练序列标记模型。但是,它花费大量的注释成本,可能导致标签混淆,OCR错误也会显著影响最终性能。在本文中,作者提出了一个统一的弱监督学习框架,称    阅读全文
                
一、简要介绍 视觉信息提取(VIE)近年来受到了越来越多的关注。现有的方法通常首先将光学字符识别(OCR)结果组织成纯文本,然后利用标记级实体注释作为监督来训练序列标记模型。但是,它花费大量的注释成本,可能导致标签混淆,OCR错误也会显著影响最终性能。在本文中,作者提出了一个统一的弱监督学习框架,称    阅读全文
posted @ 2023-03-21 10:11 合合技术团队 阅读(104) 评论(0) 推荐(0)
                    
                
以“图文智能处理与多场景应用技术展望”为主题,聚焦图像文档处理中的结构建模、底层视觉技术、跨媒体数据协同应用、生成式人工智能及对话式大型语言模型等热门话题,特邀来自上海交大、厦门大学、复旦、中科大的知名高校的学者与合合信息技术团队一道,以直播的形式分享文档处理实践经验及NLP发展趋势,探讨ChatGPT与文档处理未来。    
-引言 近年来,随着计算机技术的飞速发展,越来越多的研究者开始关注表格检测识别技术。表格检测识别技术是一种利用计算机自动处理表格的技术,它可以实现从文本中检测出表格,并进行识别和提取。这种技术有助于提高文本处理的效率,为计算机辅助知识发现和知识挖掘提供了支持。 表格检测和识别技术的发展可以追溯到20    
浙公网安备 33010602011771号