分页提取pdf字段的劣势；

1.分页提取pdf字段的劣势；
👉我现在正在提取一个20页的文档，文档里面包含表格并且表格里面有需要提取的字段，
👉我对pdf进行ocr后，将提取到的文本以分页标识符为准，分批传入LLM模型进行字段提取，
👉但由于是分批提取，模型对这种分批次的内容没有什么记忆，每次提取后的字段差距都很大。
👉这种分批提取放大了LLM模型记忆太短的劣势，每次输出都是不一样的结果。
⚠️要让模型对这种分批次的提取，在批次与批次之间产生关联。

✅ 阶段 1：正确做法为分页只做【线索发现】：分页抽取 ≠ 填字段，而是「找线索」

✅ 阶段 2：表格页必须单独对待，表格是跨页的、非线性的

✅ 阶段 3：跨页聚合才是你该“做判断”的地方

posted @ 2026-01-23 11:54 asphyxiasea 阅读(3) 评论(0) 收藏举报

刷新页面返回顶部

分页提取pdf字段的劣势；

公告