paddlepaddle中各个产线级方案分工;PPStructureV3版面过滤问题;
1.paddlepaddle中各个框架分工;
(1)PP-OCRv5产线级(“认字机器”)
PP-OCRv5 不关心“这行字是标题还是正文”。
(2)PPStructureV3产线级
PPStructureV3包含了PP-OCRv5,并且有文件版面识别。
| 能力 | PP-OCRv5 | PPStructureV3 |
|---|---|---|
| 文本检测 | ✅ | ✅(调用 OCR) |
| 文本识别 | ✅ | ✅ |
| 文档区域裁剪 | ❌ | ✅ |
| 版面分析 | ❌ | ✅ |
| 表格结构 | ❌ | ✅ |
| 阅读顺序 | ❌ | ✅ |
| 直接喂 LLM | ❌ | ✅ |
2.PPStructureV3版面过滤问题
⚠️PPStructureV3会过滤页眉页尾等版面问题,但需要提取的字段大多都在页眉页尾中。
这是一个问题,会漏掉很多信息。
浙公网安备 33010602011771号