文档识别架构思路整理;
1.文档识别架构思路整理
“直接把整个文件给 LLM”本来就不对
👉 Paddle 负责“看清楚”,LLM 负责“想明白”
1️⃣ LLM 的天然限制
上下文窗口有限(即便 128k 也不够 PDF / 扫描件)
成本高
注意力会被无关内容稀释
2️⃣ Paddle 更适合干的事 、LLM 更适合干的事、Python各自分工:
| 模块 | 作用(分工) |
|---|---|
| PaddleOCR / PP-Structure | 版面、表格、字段、文字定位 |
| 规则 / Python | 过滤、清洗、裁剪、对齐 |
| LLM | 语义理解、推理、归纳、结构映射 |
浙公网安备 33010602011771号