paddlepaddle中各个产线级方案分工;PPStructureV3版面过滤问题;

1.paddlepaddle中各个框架分工;
(1)PP-OCRv5产线级(“认字机器”)
PP-OCRv5 不关心“这行字是标题还是正文”。
(2)PPStructureV3产线级
PPStructureV3包含了PP-OCRv5,并且有文件版面识别。

能力 PP-OCRv5 PPStructureV3
文本检测 ✅(调用 OCR)
文本识别
文档区域裁剪
版面分析
表格结构
阅读顺序
直接喂 LLM

2.PPStructureV3版面过滤问题
⚠️PPStructureV3会过滤页眉页尾等版面问题,但需要提取的字段大多都在页眉页尾中。
这是一个问题,会漏掉很多信息。

posted @ 2026-01-23 11:52  asphyxiasea  阅读(2)  评论(0)    收藏  举报