PaddleOCR系列学习;PaddleOCR结构化输出PPStructureV3;
1.PaddleOCR系列学习;
PaddlePaddle(简称 Paddle)是一个中文友好的文档。
PP-OCRv5 是“模型 + 算法方案”
Paddle 是“深度学习框架 / 运行引擎”
你的 Python 代码
│
▼
PaddleOCR(高层封装)
│
▼
PP-OCRv5(det / rec / cls 模型 + 后处理)
│
▼
PaddlePaddle(深度学习框架)
│
▼
CUDA / CPU / NPU
PaddlePaddle(简称 Paddle)是百度主导的一个深度学习框架,
以下为飞桨旗下的PP‑OCRv5,一般分为三种模型det、rec和cls
| 模型 | 用途 |
|---|---|
| PP‑OCRv5_det | 文本检测 |
| PP‑OCRv5_rec | 文本识别 |
| PP‑OCRv5_cls | 文本方向 |
官网文档写得是从huggingface下载,根本下载不了;
尝试从modelscope下载,
2.PaddleOCR结构化输出PPStructureV3 ;
PPStructureV3实战参考连接:
https://zhuanlan.zhihu.com/p/1939672670473019463
PaddleOCR虽然能够输出文字坐标等信息,但是结构化程度不够,输出到LLM模型会有很多噪声;
PPStructureV3 = OCR + 版面分析 + 表格解析 + 文档结构输出
输出文档块级结构,而不是简单文字
浙公网安备 33010602011771号