摘要: 引言 目前,开源的项目中有很多 OCR 模型,但是没有一个统一的基准来衡量哪个是更好一些的。 面对这么多的模型,让我们有些不知所措。为此,最近一段时间以来,我一直想要构建这样一个基准,现在来看,已经初步具有雏形。 为了能更好地评测各个模型效果,收集标注了两个开源评测集: text_det_test_ 阅读全文
posted @ 2024-04-16 22:41 Danno 阅读(36) 评论(0) 推荐(0) 编辑
摘要: LabelConvert LabelConvert是一个目标检测和图像分割的数据集格式转换工具,支持labelme、labelImg与YOLO、VOC和COCO 数据集格式之间的相互转换。 支持的转换格式 安装 pip install label_convert 具体使用方法 由于文章篇幅所限,请移 阅读全文
posted @ 2024-03-30 17:28 Danno 阅读(20) 评论(0) 推荐(0) 编辑
摘要: 引言 此刻,今年将要毕业的无数莘莘学子正在奋笔疾书写着自己的毕业论文,淹没于繁琐的论文排版格式中。 小编也是从这个时候走过来的,深知其中不易之处。 好在现在有overleaf平台,可以稍稍缓解我们的痛点。但是经过一些调研发现,仍然存在两大痛点: 痛点1:没有对应的LaTeX模板 痛点2:overle 阅读全文
posted @ 2024-03-26 20:28 Danno 阅读(17) 评论(0) 推荐(0) 编辑
摘要: ⚠️注意: 后续更新移步CSDN: link 引言 通用文档理解,是OCR任务的终极目标。现阶段的OCR各种垂类任务都是通用文档理解任务的子集。这感觉就像我们一下子做不到通用文档理解,退而求其次,先做各种垂类任务。 现阶段,Transformer技术的发展,让通用文档理解任务变得不再是那么遥不可及, 阅读全文
posted @ 2024-03-14 22:09 Danno 阅读(34) 评论(0) 推荐(0) 编辑
摘要: 引言 总有小伙伴问到阿里的无线表格识别模型是如何转换为ONNX格式的。这个说来有些惭愧,现有的ONNX模型是很久之前转换的了,转换环境已经丢失,且没有做任何笔记。 今天下定决心再次尝试转换,庆幸的是转换成功了。于是有了转换笔记:ConvertLOREToONNX。 这次吸取教训,环境文件采用Anac 阅读全文
posted @ 2024-03-10 15:10 Danno 阅读(11) 评论(0) 推荐(0) 编辑
摘要: 引言 场景文本检测任务,一直以来是OCR整个任务中最为重要的一环。虽然有一些相关工作是端对端OCR工作的,但是从工业界来看,相关落地应用较为困难。因此,两阶段的OCR方案一直是优先考虑的。 在两阶段中(文本检测+文本识别),文本检测是极为重要的一环。自从DBNet提出后,工业界似乎找到了法宝,DBN 阅读全文
posted @ 2024-03-09 21:14 Danno 阅读(14) 评论(0) 推荐(0) 编辑
摘要: 引言 随着LaTeX-OCR模型转换问题的解决,公式识别任务中各个链条已经全部打通。小伙伴们可以放开膀子干了。 解决业界问题的方案,并不是单独训练一个模型就完事了,而是有着上下游的依赖。这就像工厂中流水线作业一样,一个小东西的生产是依赖无数个中间阶段才完成的。 一个模型应用到产品中,也是有着类似的流 阅读全文
posted @ 2023-12-09 21:46 Danno 阅读(27) 评论(0) 推荐(0) 编辑
摘要: 引言 TableStructureRec 仓库是用来对文档中表格做结构化识别的推理库,包括来自 PaddleOCR 的表格结构识别算法模型、来自阿里读光有线和无线表格识别算法模型等。 该仓库将表格识别前后处理做了完善,并结合 OCR,保证表格识别部分可直接使用。 该仓库会持续关注表格识别这一领域,集 阅读全文
posted @ 2023-11-23 22:39 Danno 阅读(184) 评论(0) 推荐(0) 编辑
摘要: @目录引言方案一:基于LaTeX环境方案二:基于KaTeX(推荐) 方案三:基于Matplotlib写在最后 引言 近来,涉及到一些公式识别的项目,输入是公式的图像,输出是LaTeX格式的数学公式字符串。 这类项目一般都采用深度学习的方法来做,这就涉及到构造公式LaTeX字符串和对应渲染后图像的数据 阅读全文
posted @ 2023-10-28 22:06 Danno 阅读(78) 评论(0) 推荐(0) 编辑
摘要: 简介 rapidocr_paddle系列包是基于PaddlePaddle框架作为推理引擎的,支持CPU和GPU上推理。值得说明的是,这个包和PaddleOCR相比,代码基本都是一样的,只不过这个库将里面核心推理代码抽了出来,更加精简而已。 推荐GPU上用这个,CPU端还是以rapidocr_onnx 阅读全文
posted @ 2023-10-22 22:51 Danno 阅读(59) 评论(0) 推荐(0) 编辑