PaddleOCR系列学习;PaddleOCR结构化输出PPStructureV3;

1.PaddleOCR系列学习;
PaddlePaddle(简称 Paddle)是一个中文友好的文档。
PP-OCRv5 是“模型 + 算法方案”
Paddle 是“深度学习框架 / 运行引擎”

你的 Python 代码
    │
    ▼
PaddleOCR(高层封装)
    │
    ▼
PP-OCRv5(det / rec / cls 模型 + 后处理)
    │
    ▼
PaddlePaddle(深度学习框架)
    │
    ▼
CUDA / CPU / NPU

PaddlePaddle(简称 Paddle)是百度主导的一个深度学习框架,
以下为飞桨旗下的PP‑OCRv5,一般分为三种模型det、rec和cls

模型 用途
PP‑OCRv5_det 文本检测
PP‑OCRv5_rec 文本识别
PP‑OCRv5_cls 文本方向

官网文档写得是从huggingface下载,根本下载不了;
尝试从modelscope下载,

2.PaddleOCR结构化输出PPStructureV3 ;
PPStructureV3实战参考连接:
https://zhuanlan.zhihu.com/p/1939672670473019463
PaddleOCR虽然能够输出文字坐标等信息,但是结构化程度不够,输出到LLM模型会有很多噪声;
PPStructureV3 = OCR + 版面分析 + 表格解析 + 文档结构输出
输出文档块级结构,而不是简单文字

posted @ 2026-01-13 18:31  asphyxiasea  阅读(27)  评论(0)    收藏  举报