分页提取pdf字段的劣势;

1.分页提取pdf字段的劣势;
👉我现在正在提取一个20页的文档,文档里面包含表格并且表格里面有需要提取的字段,
👉我对pdf进行ocr后,将提取到的文本以分页标识符为准,分批传入LLM模型进行字段提取,
👉但由于是分批提取,模型对这种分批次的内容没有什么记忆,每次提取后的字段差距都很大。
👉这种分批提取放大了LLM模型记忆太短的劣势,每次输出都是不一样的结果。
⚠️要让模型对这种分批次的提取,在批次与批次之间产生关联。

✅ 阶段 1:正确做法为分页只做【线索发现】:分页抽取 ≠ 填字段,而是「找线索」

✅ 阶段 2:表格页必须单独对待,表格是跨页的、非线性的

✅ 阶段 3:跨页聚合才是你该“做判断”的地方

posted @ 2026-01-23 11:54  asphyxiasea  阅读(3)  评论(0)    收藏  举报