使用PaddleOCR进行表格识别

原文地址: https://zhuzhulang.github.io/blog/posts/how-to-use-paddleocr-recognition-table/

如果非要说什么的话,那就是用OCR来识别文件内容其实是把问题复杂化的表现,但是应用场景还是有那么一些,比如古籍的扫描后文字的识别,毕竟人工成本还是比较高的。
先来看个自拍的图片:
image

可以很清楚看到其中的图片,下面开始编写相关的代码:

from paddleocr import PPStructure
table_engine = PPStructure(show_log=True)
img_path="20250422094717.jpg"
result = table_engine(img_path)
for line in result:
    if line["type"] == "Table":
        html = line["res"]["html"]

其中html变量就是识别出来的HTML代码,其效果如下:
image

为其添加一个像素的边框后可以看到其内容识别的并不全。预计是没有进行预处理的,导致其版面识别就有问题,自然影响后续内容的识别。
接着来看从PDF中截图,这张图片相对来说比较干净,因为只有黑白两色:
image

其效果如下:
image

可以看到其成功将表格识别出来了,另外最后一行中10.76%的值漏掉了点号,因此还需要后处理进行校正。

posted @ 2025-04-22 11:46  月薪几千的牛马  阅读(693)  评论(0)    收藏  举报